Java字符編碼原理(動力節(jié)點Java學(xué)院整理)
Java開發(fā)中,常常會遇到亂碼的問題,一旦遇到這種問題,常常比較煩惱,大家都不愿意承認(rèn)是自己的代碼有問題。其實編碼問題并沒有那么神秘,那么不可捉摸,搞清Java的編碼本質(zhì)過程就大白了。
先看個圖:
其實,編碼問題存在兩個方面:JVM之內(nèi)和JVM之外。
1、Java文件編譯后形成class
這里Java文件的編碼可能有多種多樣,但Java編譯器會自動將這些編碼按照J(rèn)ava文件的編碼格式正確讀取后產(chǎn)生class文件,這里的class文件編碼是Unicode編碼(具體說是UTF-16編碼)。
因此,在Java代碼中定義一個字符串:
String s="漢字";
不管在編譯前java文件使用何種編碼,在編譯后成class后,他們都是一樣的----Unicode編碼表示。
2、JVM中的編碼
JVM加載class文件讀取時候使用Unicode編碼方式正確讀取class文件,那么原來定義的String s="漢字";在內(nèi)存中的表現(xiàn)形式是Unicode編碼。
當(dāng)調(diào)用String.getBytes()的時候,其實已經(jīng)為亂碼買下了禍根。因為此方法使用平臺默認(rèn)的字符集來獲取字符串對應(yīng)的字節(jié)數(shù)組。在WindowsXP中文版中,使用的默認(rèn)編碼是GBK,不信運行下:
public class Test { public static void main(String[] args) { System.out.println("當(dāng)前JRE:" + System.getProperty("java.version")); System.out.println("當(dāng)前JVM的默認(rèn)字符集:" + Charset.defaultCharset()); } }
當(dāng)前JRE:1.8.0_16
當(dāng)前JVM的默認(rèn)字符集:GBK
當(dāng)不同的系統(tǒng)、數(shù)據(jù)庫經(jīng)過多次編碼后,如果對其中的原理不理解,就容易導(dǎo)致亂碼。因此,在一個系統(tǒng)中,有必要對字符串的編碼做一個統(tǒng)一,這個統(tǒng)一模糊點說,就是對外統(tǒng)一。比如方法字符串參數(shù),IO流,在中文系統(tǒng)中,可以統(tǒng)一使用GBK、GB13080、UTF-8、UTF-16等等都可以,只是要選擇有些更大字符集,以保證任何可能用到的字符都可以正常顯示,避免亂碼的問題。(假設(shè)對所有的文件都用ASCII碼)那么就無法實現(xiàn)雙向轉(zhuǎn)換了。
要特別注意的是,UTF-8并非能容納了所有的中文字符集編碼,因此,在特殊情況下,UTF-8轉(zhuǎn)GB18030可能會出現(xiàn)亂碼,然而常常在做中文系統(tǒng)喜歡用UTF-8編碼而不說不出個所以然出來!一個系統(tǒng)多個人做,源代碼文件有的人用GBK編碼,有人用UTF-8,還有人用GB18030。FK,都是中國人,也不是外包項目,用什么UTF-8啊,神經(jīng)!源代碼統(tǒng)統(tǒng)都用GBK18030就OK了,免得ANT腳本編譯時候提示不可認(rèn)的字符編碼。
因此,對于中文系統(tǒng)來說,最好選擇GBK或GB18030編碼(其實GBK是GB18030的子集),以便最大限度的避免亂碼現(xiàn)象。
3、內(nèi)存中字符串的編碼
內(nèi)存中的字符串不僅僅局限于從class代碼中直接加載而來的字符串,還有一些字符串是從文本文件中讀取的,還有的是通過數(shù)據(jù)庫讀取的,還有可能是從字節(jié)數(shù)組構(gòu)建的,然而他們基本上都不是Unicode編碼的,原因很簡單,存儲優(yōu)化。
因此就需要處理各種各樣的編碼問題,在處理之前,必須明確“源”的編碼,然后用指定的編碼方式正確讀取到內(nèi)存中。如果是一個方法的參數(shù),實際上必須明確該字符串參數(shù)的編碼,因為這個參數(shù)可能是另外一個日文系統(tǒng)傳遞過來的。當(dāng)明確了字符串編碼時候,就可以按照要求正確處理字符串,以避免亂碼。
在對字符串進行解碼編碼的時候,應(yīng)該調(diào)用下面的方法:
getBytes(String charsetName) String(byte[] bytes, String charsetName)
而不要使用那些不帶字符集名稱的方法簽名,通過上面兩個方法,可以對內(nèi)存中的字符進行重新編碼。
以上所述上小編給大家介紹的java 字符編碼原理,希望對大家有所幫助,如果大家有任何疑問歡迎給我留言,小編會及時回復(fù)大家的,在此也非常感謝大家對腳本之家網(wǎng)站的支持!
相關(guān)文章
openFeign服務(wù)之間調(diào)用保持請求頭信息處理方式
這篇文章主要介紹了openFeign服務(wù)之間調(diào)用保持請求頭信息處理方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-06-06Java編程實現(xiàn)向文本文件中讀取數(shù)據(jù)之Scanner用法示例
這篇文章主要介紹了Java編程實現(xiàn)向文本文件中讀取數(shù)據(jù)之Scanner用法,結(jié)合實例形式分析了java使用Scanner類讀取文本文件相關(guān)操作技巧與注意事項,需要的朋友可以參考下2018-03-03SpringBoot多數(shù)據(jù)源配置方式以及報錯問題的解決
這篇文章主要介紹了SpringBoot多數(shù)據(jù)源配置方式以及報錯問題的解決方案,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-07-07SpringBoot配置文件中密碼屬性加密的實現(xiàn)
本文主要介紹了SpringBoot配置文件中密碼屬性加密的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-07-07解決ResourceBundle.getBundle文件路徑問題
這篇文章主要介紹了解決ResourceBundle.getBundle文件路徑問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-01-01