欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java中關于字符串的編碼方式

 更新時間:2022年06月21日 10:46:13   作者:想去22世紀  
這篇文章主要介紹了Java中關于字符串的編碼方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教

字符串的編碼方式

UTF-8是Unicode的一種實現(xiàn)方式,也就是它的字節(jié)結構有特殊要求,所以我們說一個漢字的范圍是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的編碼里去就是由三個字節(jié)來組織,所以可以看出unicode是給出一個字符的范圍,定義了這個字是碼值是多少,至于具體的實現(xiàn)方式可以有多種多樣來實現(xiàn)。

idea中默認的字符串編碼方式為utf-8

System.out.println(System.getProperty("file.encoding"));

更改編碼方式:settings->fileCoding->GlobalEncoding = GBK

輸出結果:

utf-8和GBK中字符串所占用的字節(jié)數

    public static void print(String s) {
        for (byte aByte : s.getBytes()) {
            System.out.println(aByte);
        }
        System.out.println("----------------");
    }

GBK編碼方式下,鍵盤在中文狀態(tài)

數字字母占一個字節(jié),符號或者中文占用兩個字節(jié)

    public static void main(String[] args) {
        String s1 = "2";
        print(s1);
        String s2 = ";";
        print(s2);
        String s3 = "方";
        print(s3);
        String s4 = "23f方";
        print(s4);
    }

gbk編碼方式下,鍵盤在英文狀態(tài)

字母數字占,符號用1個字節(jié),中文占用兩個字節(jié)

    public static void main(String[] args) {
        String s1 = "2";
        print(s1);
        String s2 = ";";
        print(s2);
        String s3 = "f";
        print(s3);
        String s4 = "23f方";
        print(s4);
    }

utf-8的方式下

中文,中文符號占用3個字節(jié),英文符號占用1個字節(jié),字母數字占用1個字節(jié)

    public static void main(String[] args) {
        String s1 = "2";
        print(s1);
        String s2 = ";";
        print(s2);
        String s3 = "方";
        print(s3);
        String s4 = "23f方";
        print(s4);
    }

小結:

  • utf-8下中文中文符號占用3字節(jié),英文符號,字母數字占用1個字節(jié)
  • gbk下中文中文符號占用2字節(jié),英文符號,字母數字占用1個字節(jié)

設置字符串編碼、轉碼 

Unicode(統(tǒng)一碼、萬國碼、單一碼)是計算機科學領域里的一項業(yè)界標準,包括字符集、編碼方案等。Unicode 是為了解決傳統(tǒng)的字符編碼方案的局限而產生的,它為每種語言中的每個字符設定了統(tǒng)一并且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉換、處理的要求。1990年開始研發(fā),1994年正式公布。

Unicode是國際組織制定的可以容納世界上所有文字和符號的字符編碼方案。目前的Unicode字符分為17組編排,0x0000 至 0x10FFFF,每組稱為平面(Plane),而每平面擁有65536個碼位,共1114112個。然而目前只用了少數平面。UTF-8、UTF-16、UTF-32都是將數字轉換到程序數據的編碼方案。

通用字符集(Universal Character Set, UCS)是由ISO制定的ISO 10646(或稱ISO/IEC 10646)標準所定義的標準字符集。UCS-2用兩個字節(jié)編碼,UCS-4用4個字節(jié)編碼。

UTF-8

UTF-8以字節(jié)為單位對Unicode進行編碼。

UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字符編碼,又稱萬國碼,由Ken Thompson于1992年創(chuàng)建。現(xiàn)在已經標準化為RFC 3629。UTF-8用1到6個字節(jié)編碼Unicode字符。

用在網頁上可以統(tǒng)一頁面顯示中文簡體繁體及其它語言(如英文,日文,韓文)。 

UTF-16

UTF-16編碼以16位無符號整數為單位。

UTF-16是Unicode字符編碼五層次模型的第三層:字符編碼表(Character Encoding Form,也稱為 "storage format")的一種實現(xiàn)方式。即把Unicode字符集的抽象碼位映射為16位長的整數(即碼元)的序列,用于數據存儲或傳遞。Unicode字符的碼位,需要1個或者2個16位長的碼元來表示,因此這是一個變長表示。

UTF-16是Unicode的其中一個使用方式。 UTF是 Unicode TransferFormat,即把Unicode轉做某種格式的意思。

它定義于ISO/IEC 10646-1的附錄Q,而RFC2781也定義了相似的做法。

在Unicode基本多文種平面定義的字符(無論是拉丁字母、漢字或其他文字或符號),一律使用2字節(jié)儲存。而在輔助平面定義的字符,會以代理對(surrogate pair)的形式,以兩個2字節(jié)的值來儲存。UTF-16比起UTF-8,好處在于大部分字符都以固定長度的字節(jié) (2字節(jié)) 儲存,但UTF-16卻無法兼容于ASCII編碼。

UTF-32

UTF-32編碼以32位無符號整數為單位。

Unicode的UTF-32編碼就是其對應的32位無符號整數。

UTF-32 (或 UCS-4)是一種將Unicode字符編碼的協(xié)定,對每一個Unicode碼位使用恰好32位元。其它的Unicode transformation formats則使用不定長度編碼。因為UTF-32對每個字符都使用4字節(jié),就空間而言,是非常沒有效率的。特別地,非基本多文種平面的字符在大部分文件中通常很罕見,以致于它們通常被認為不存在占用空間大小的討論,使得UTF-32通常會是其它編碼的二到四倍。雖然每一個碼位使用固定長定的字節(jié)看似方便,它并不如其它Unicode編碼使用得廣泛。j 

java中編碼 

String gbkStr = "你好哦!"; //源碼文件是GBK格式,或者這個字符串是從GBK文件中讀取出來的, 轉換為string 變成unicode格式
//利用getBytes將unicode字符串轉成UTF-8格式的字節(jié)數組
byte[] utf8Bytes = gbkStr.getBytes("UTF-8");?
//然后用utf-8 對這個字節(jié)數組解碼成新的字符串
String utf8Str = new String(utf8Bytes, "UTF-8");

簡化后就是:

unicodeToUtf8 (String s) {
return new String( s.getBytes("utf-8") , "utf-8");
}

UTF-8 轉GBK原理也是一樣

return new String( s.getBytes("GBK") , "GBK");

解決編碼亂碼

java 獲取系統(tǒng)中默認的編碼

? //方法一:中文操作系統(tǒng)中打印GBK ??
System.out.println(System.getProperty("file.encoding")); ??
//方法二:中文操作系統(tǒng)中打印GBK ??
System.out.println(Charset.defaultCharset()); ??

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。 

相關文章

  • 簡單了解JAVA public class與class區(qū)別

    簡單了解JAVA public class與class區(qū)別

    這篇文章主要介紹了簡單了解JAVA public class與class區(qū)別,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-03-03
  • Springboot線程池并發(fā)處理數據優(yōu)化方式

    Springboot線程池并發(fā)處理數據優(yōu)化方式

    這篇文章主要介紹了Springboot線程池并發(fā)處理數據優(yōu)化方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-12-12
  • Java中StringBuffer和StringBuilder區(qū)別

    Java中StringBuffer和StringBuilder區(qū)別

    這篇文章主要介紹了Java中StringBuffer和StringBuilder區(qū)別,本文只介紹了它們之間的核心區(qū)別,需要的朋友可以參考下
    2015-06-06
  • Spring中使用copyProperties方法進行對象之間的屬性賦值詳解

    Spring中使用copyProperties方法進行對象之間的屬性賦值詳解

    這篇文章主要介紹了Spring中使用copyProperties方法進行對象之間的屬性賦值詳解,使用org.springframework.beans.BeanUtils.copyProperties方法進行對象之間屬性的賦值,避免通過get、set方法一個一個屬性的賦值,需要的朋友可以參考下
    2023-12-12
  • TK-MyBatis 分頁查詢的具體使用

    TK-MyBatis 分頁查詢的具體使用

    分頁查詢在很多地方都可以使用到,本文就詳細的介紹了一下TK-MyBatis 分頁查詢的具體使用,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-12-12
  • Java遞歸遍歷樹形結構的實現(xiàn)代碼

    Java遞歸遍歷樹形結構的實現(xiàn)代碼

    這篇文章主要介紹了Java遞歸遍歷樹形結構的相關資料,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2016-03-03
  • 關于idea的gitignore文件編寫及解決ignore文件不生效問題

    關于idea的gitignore文件編寫及解決ignore文件不生效問題

    這篇文章主要介紹了idea的gitignore文件編寫及解決ignore文件不生效問題,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-03-03
  • IntelliJ?IDEA?代碼運行時中文出現(xiàn)亂碼問題及解決方法

    IntelliJ?IDEA?代碼運行時中文出現(xiàn)亂碼問題及解決方法

    在我們剛接觸到IDEA時,想美滋滋的敲一個“hello?world”來問候這個世界,但難免會遇到這種問題亂碼,這篇文章主要介紹了解決IntelliJ?IDEA?代碼運行時中文出現(xiàn)亂碼問題,需要的朋友可以參考下
    2023-09-09
  • Java實現(xiàn)簡單抽獎功能界面

    Java實現(xiàn)簡單抽獎功能界面

    這篇文章主要為大家詳細介紹了Java實現(xiàn)簡單抽獎功能界面,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2020-11-11
  • java使用正則表達式判斷手機號的方法示例

    java使用正則表達式判斷手機號的方法示例

    這篇文章主要介紹了java使用正則表達式判斷手機號的方法,分析了手機號碼段的原理及java使用正則表達式針對手機號的匹配操作實現(xiàn)技巧,需要的朋友可以參考下
    2017-06-06

最新評論