Java中字符編碼問題的解決方法詳解
前言
在日常 Java 開發(fā)中,字符編碼問題是一個非常常見卻又特別容易踩坑的地方。尤其是在不同操作系統(tǒng)之間切換,或者從前端傳到后端、再到數(shù)據(jù)庫,編碼沒統(tǒng)一好,中文就會出現(xiàn)“亂碼”。很多同學(xué)第一次遇到的時候,會被一大堆奇怪的方塊符號或者問號整崩潰。
這篇文章就帶你一步一步看清楚字符編碼的來龍去脈,并結(jié)合可運行的代碼,看看如何在 Java 項目里徹底解決編碼不一致的問題。
背景:為什么會出現(xiàn)編碼問題
其實原因很簡單:不同系統(tǒng)、不同軟件的默認(rèn)字符編碼不一樣。
- Windows 上默認(rèn)編碼是 GBK 或 CP936。
- Linux、Mac 大部分是 UTF-8。
- 數(shù)據(jù)庫可能是 Latin1、GBK 或 UTF-8。
- Tomcat、IDEA 默認(rèn)也可能不是 UTF-8。
舉個例子,如果你的 Java 程序里寫了一行中文字符串 "你好",在 UTF-8 下存儲沒問題,但如果有人用 GBK 來讀取,就會直接炸掉,變成“亂碼”。
常見場景分析
控制臺輸出亂碼
在 Windows 的 CMD 下運行 Java 程序時,經(jīng)常會看到控制臺打印中文是亂碼。這是因為 Windows 控制臺默認(rèn)用 GBK 編碼,但你的 Java 程序里可能用的是 UTF-8。
public class EncodingDemo {
public static void main(String[] args) {
String msg = "你好,世界";
System.out.println(msg);
}
}
在 Linux/Mac 控制臺上運行,大概率沒問題。但在 Windows CMD 里,就會看到一堆奇怪符號。
文件讀寫亂碼
當(dāng)你從文件里讀中文內(nèi)容時,如果讀的時候用的編碼和寫的時候不一樣,也會直接出錯。
import java.io.*;
public class FileEncodingDemo {
public static void main(String[] args) throws Exception {
String text = "中文內(nèi)容測試";
// 寫入文件,強制使用 UTF-8
try (Writer writer = new OutputStreamWriter(new FileOutputStream("test.txt"), "UTF-8")) {
writer.write(text);
}
// 讀取文件(錯誤示范:不指定編碼)
try (BufferedReader reader = new BufferedReader(new FileReader("test.txt"))) {
System.out.println("讀到的內(nèi)容:" + reader.readLine());
}
// 正確方式:指定 UTF-8
try (BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("test.txt"), "UTF-8"))) {
System.out.println("正確讀到的內(nèi)容:" + reader.readLine());
}
}
}
運行后你會發(fā)現(xiàn),沒指定編碼時中文是亂碼,指定了 UTF-8 之后就正常了。
數(shù)據(jù)庫存取亂碼
數(shù)據(jù)庫也是高頻出錯點,比如 MySQL 默認(rèn)的 latin1 編碼就很坑。假設(shè)表結(jié)構(gòu)是這樣的:
CREATE TABLE user ( id INT PRIMARY KEY AUTO_INCREMENT, name VARCHAR(50) ) DEFAULT CHARSET=latin1;
如果你在 Java 里用 UTF-8 往里面寫入 "張三",再讀出來時就會發(fā)現(xiàn)已經(jīng)是亂碼。
解決辦法是:
建庫建表時就指定 utf8mb4:
CREATE DATABASE demo DEFAULT CHARSET=utf8mb4;
JDBC 連接時也要加上編碼參數(shù):
spring.datasource.url=jdbc:mysql://localhost:3306/demo?useUnicode=true&characterEncoding=utf-8&serverTimezone=UTC
解決方案
那我們該怎么統(tǒng)一解決這個問題呢?其實有幾個常見思路:
統(tǒng)一使用 UTF-8
UTF-8 是現(xiàn)在最通用的編碼方式,跨系統(tǒng)兼容性最好。所以最穩(wěn)妥的做法就是:整個鏈路都統(tǒng)一成 UTF-8。
包括:源代碼文件、編譯參數(shù)、運行參數(shù)、數(shù)據(jù)庫配置、Tomcat 配置。
比如在 Maven 項目里,你可以在 pom.xml 里強制指定源碼編碼:
<project>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
</project>
這樣即便在 Windows 上編譯,結(jié)果也不會變。
設(shè)置 JVM 參數(shù)
如果你發(fā)現(xiàn)運行環(huán)境默認(rèn)編碼不是 UTF-8,可以在 JVM 啟動時加上參數(shù):
java -Dfile.encoding=UTF-8 -jar app.jar
這會讓整個 Java 虛擬機的默認(rèn)編碼改成 UTF-8,很多情況下能一勞永逸。
數(shù)據(jù)庫設(shè)置字符集
在 MySQL 里,推薦直接用 utf8mb4,這樣連 emoji 表情都能存:
ALTER DATABASE demo CHARACTER SET utf8mb4; ALTER TABLE user CONVERT TO CHARACTER SET utf8mb4;
同時,Java 里的 JDBC 連接也要顯式指定編碼,否則還是會出問題。
實際案例:亂碼排查經(jīng)驗
我自己就踩過一個坑:在 Windows 下本地開發(fā),數(shù)據(jù)庫是 utf8mb4,項目里也設(shè)了 -Dfile.encoding=UTF-8,一切正常。但是代碼上線到 Linux 服務(wù)器后,日志里的中文全是亂碼。排查了半天,最后發(fā)現(xiàn)是 日志框架的配置文件沒聲明 UTF-8,導(dǎo)致寫日志文件時被當(dāng)成系統(tǒng)默認(rèn)編碼。
后來改了一行配置就好了:
<encoder class="ch.qos.logback.classic.encoder.PatternLayoutEncoder">
<charset>UTF-8</charset>
<pattern>%d{yyyy-MM-dd HH:mm:ss} [%thread] %-5level %logger{36} - %msg%n</pattern>
</encoder>
所以要點就是:不要依賴默認(rèn)值,凡是涉及到字符集的地方都要顯式聲明 UTF-8。
總結(jié)
Java 的字符編碼問題,說白了就是“讀和寫不一致”。解決它的核心就是統(tǒng)一,特別是統(tǒng)一用 UTF-8。
- 源代碼、編譯、運行 JVM 都統(tǒng)一 UTF-8。
- 文件讀寫時顯式指定編碼。
- 數(shù)據(jù)庫用
utf8mb4并在 JDBC 連接里加上參數(shù)。
只要做到這幾點,基本就不會再遇到莫名其妙的亂碼問題。
到此這篇關(guān)于Java中字符編碼問題的解決方法詳解的文章就介紹到這了,更多相關(guān)Java字符編碼內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
TransmittableThreadLocal通過javaAgent實現(xiàn)線程傳遞并支持ForkJoin
這篇文章主要介紹了TransmittableThreadLocal通過javaAgent實現(xiàn)線程傳遞并支持ForkJoin詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-06-06
RxJava的消息發(fā)送和線程切換實現(xiàn)原理
這篇文章主要介紹了RxJava的消息發(fā)送和線程切換實現(xiàn)原理,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-11-11
在IDEA中配置tomcat并創(chuàng)建tomcat項目的圖文教程
這篇文章主要介紹了在IDEA中配置tomcat并創(chuàng)建tomcat項目的圖文教程,需要的朋友可以參考下2020-07-07

