快捷導(dǎo)航

Java字符串編碼知識(shí)點(diǎn)詳解介紹

更新時(shí)間：2022年11月06日 15:02:07 作者：bjpowernode

在本篇內(nèi)容了小編給大家詳細(xì)分析了關(guān)于Java字符串編碼的知識(shí)點(diǎn)并對(duì)實(shí)例做了分析，有興趣的朋友們跟著學(xué)習(xí)下。

在 Java 中，當(dāng)我們處理String時(shí)，有時(shí)需要將字符串編碼為特定字符集。編碼是一種將數(shù)據(jù)從一種格式轉(zhuǎn)換為另一種格式的方法。字符串對(duì)象使用 UTF-16 編碼。UTF-16 的問題在于它不能被修改。只有一種方法可以用來獲得不同的編碼，即 byte[] 數(shù)組。如果我們得到意外的數(shù)據(jù)，編碼的方式是不合適的。在本節(jié)中，我們將學(xué)習(xí)如何在Java中對(duì)字符串進(jìn)行編碼。

在繼續(xù)本節(jié)之前，我們必須了解字符編碼。讓我們快速瀏覽一下。讓我們了解為什么我們需要對(duì)字符串進(jìn)行編碼。

字符編碼是一種將文本數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制數(shù)的技術(shù)。我們可以為特定字符分配唯一的數(shù)值，并將這些數(shù)字轉(zhuǎn)換為二進(jìn)制語言。這些二進(jìn)制數(shù)稍后可以根據(jù)它們的值轉(zhuǎn)換回原始字符。

問題

假設(shè)我們有德語字符串Tschüss，需要對(duì)其進(jìn)行編碼。考慮以下代碼片段：

字符串 str =  "Tschüss" ;   
字節(jié)[] bytesOfString = str.getBytes();   
String encoded_String =  new  String(bytesOfString, StandardCharsets.US_ASCII); assertNotEquals(encoded_String, str);

如果我們使用 US_ASCII 對(duì)字符串進(jìn)行編碼，它會(huì)給出Tsch?ss，因?yàn)?US_ASCII 編碼不理解非 ASCII 字符 ( ü )。當(dāng)我們將 ASCII 編碼的字符串轉(zhuǎn)換為 UTF-8 時(shí)，我們得到相同的字符串。

字符串 str =  "再見" ;   
字節(jié)[] bytesOfString = str.getBytes();   
String asciiEncondedEnglishString =  new  String(bytesOfString, StandardCharsets.US_ASCII);   
assertEquals(encoded_String, str);

如果 byte[] 數(shù)組包含非 Unicode 文本，我們可以使用String構(gòu)造函數(shù)將文本轉(zhuǎn)換為 Unicode。相反，我們也可以使用String.getBytes()方法將 String 對(duì)象轉(zhuǎn)換為非 Unicode 字符的 byte[] 數(shù)組。讓我們使用getBytes()方法對(duì)字符串進(jìn)行編碼。

使用 String.getBytes() 方法

Java String類提供了getBytes() 方法，用于將字符串編碼為 UTF-8。該方法將字符串轉(zhuǎn)換為字節(jié)序列并將結(jié)果存儲(chǔ)到數(shù)組中。

句法：

公共字節(jié)[] getBytes(String charsetName) 拋出 UnsupportedEncodingException

它將 charsetName 解析為參數(shù)并返回字節(jié)數(shù)組。如果不支持命名字符集，它會(huì)拋出UnsupportedEncodingException 。

讓我們創(chuàng)建一個(gè)將字符串轉(zhuǎn)換為 UTF-8 編碼的 Java 程序。

StringEncodingExample.java

公共類 StringEncodingExample    
{  
公共靜態(tài)void  main(String args[]) 拋出 異常    
{  
//要編碼的字符串      
字符串 str =  "谷歌云" ;  
//調(diào)用getBytes()方法并將一個(gè)字節(jié)數(shù)組存入array[]  
字節(jié) 數(shù)組[] = str.getBytes( "UTF8" );  
System.out.println( "編碼字符串：" );  
//增強(qiáng)的循環(huán)遍歷數(shù)組  
對(duì)于 （字節(jié) x：數(shù)組）   
{  
//打印字節(jié)序列      
System.out.print(x+ " " );  
}  
}  
}

輸出：

編碼字符串：
71 111 111 103 108 101 32 67 108 111 117 100

使用 StandardCharsets 類

我們還可以使用 StandardCharset 類對(duì)字符串進(jìn)行編碼。對(duì)字符串進(jìn)行編碼有兩個(gè)步驟。首先，將字符串解碼為字節(jié)，然后將其編碼為 UTF-8。例如，考慮以下代碼：

字符串 str =  "Tschüss" ;   
ByteBuffer 緩沖區(qū) = StandardCharsets.UTF_8.encode(str);   
String encoded_String = StandardCharsets.UTF_8.decode(buffer).toString(); assertEquals(str, encoded_String);

知識(shí)點(diǎn)擴(kuò)展：

為什么要編碼

不知道大家有沒有想過一個(gè)問題，那就是為什么要編碼？我們能不能不編碼？要回答這個(gè)問題必須要回到計(jì)算機(jī)是如何表示我們?nèi)祟惸軌蚶斫獾姆?hào)的，這些符號(hào)也就是我們?nèi)祟愂褂玫恼Z言。由于人類的語言有太多，因而表示這些語言的符號(hào)太多，無法用計(jì)算機(jī)中一個(gè)基本的存儲(chǔ)單元—— byte 來表示，因而必須要經(jīng)過拆分或一些翻譯工作，才能讓計(jì)算機(jī)能理解。我們可以把計(jì)算機(jī)能夠理解的語言假定為英語，其它語言要能夠在計(jì)算機(jī)中使用必須經(jīng)過一次翻譯，把它翻譯成英語。這個(gè)翻譯的過程就是編碼。所以可以想象只要不是說英語的國家要能夠使用計(jì)算機(jī)就必須要經(jīng)過編碼。這看起來有些霸道，但是這就是現(xiàn)狀，這也和我們國家現(xiàn)在在大力推廣漢語一樣，希望其它國家都會(huì)說漢語，以后其它的語言都翻譯成漢語，我們可以把計(jì)算機(jī)中存儲(chǔ)信息的最小單位改成漢字，這樣我們就不存在編碼問題了。

所以總的來說，編碼的原因可以總結(jié)為：

計(jì)算機(jī)中存儲(chǔ)信息的最小單元是一個(gè)字節(jié)即 8 個(gè) bit，所以能表示的字符范圍是 0~255 個(gè)
人類要表示的符號(hào)太多，無法用一個(gè)字節(jié)來完全表示，要解決這個(gè)矛盾必須需要一個(gè)新的數(shù)據(jù)結(jié)構(gòu) char，從 char 到 byte 必須編碼

到此這篇關(guān)于Java字符串編碼知識(shí)點(diǎn)詳解介紹的文章就介紹到這了,更多相關(guān)Java字符串編碼的介紹內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: