Java判斷字節(jié)流是否是 UTF8編碼方法示例

更新時間：2023年07月21日 10:54:41 作者：岑吾

這篇文章主要我大家介紹了Java判斷字節(jié)流是否是 UTF8編碼方法示例，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪

Java 判斷字節(jié)流是否是 UTF8 編碼

遇到本來設計時使用 GBK 編碼處理的地方，在實際使用過程導入了 UTF8 編碼，造成了顯示文本為亂碼的現(xiàn)象，在了解 UTF8，GBK 編碼和 Unicode 標準之后，編寫了 Java 判斷字節(jié)流是否是 UTF8 編碼的程序，如果是 UTF8 編碼，則轉換成 GBK 編碼。

編碼的基礎知識

Unicode 是一種標準，GBK 和 UTF8 是具體是編碼格式。Java 的字符都是以 Unicode 進行存儲的，占兩或四個字節(jié)（看版本，且 Unicode 編碼中對應關系是存在 0x00 的編碼的）。Java 中的 getBytes() 方法是和平臺（編碼）相關的，在中文系統(tǒng)中返回的可能是 GBK 或 GBK2312，在英文系統(tǒng)中返回的可能是 ISO-8859-1。

Unicode 標準：是計算機科學領域里的一項業(yè)界標準，包括字符集、編碼方案等，它為每種語言中的每個字符設定了統(tǒng)一并且唯一的二進制編碼，以滿足跨語言、跨平臺進行文本轉換、處理的要求。
GBK 編碼：漢字內碼擴展規(guī)范，國標，漢字占兩個字節(jié)。
UTF8 編碼：針對 Unicode 的可變長度字符編碼，用 1 到 6 個字節(jié)編碼 Unicode 字符，漢字一般占 3 個字節(jié)。

UTF8 編碼格式

如果 Unicode 字符由 2 個字節(jié)表示，則編碼成 UTF8 很可能需要 3 個字節(jié)。而如果 Unicode 字符由 4 個字節(jié)表示，則編碼成 UTF8 可能需要 6個字節(jié)。用 4 個或 6 個字節(jié)去編碼一個 Unicode 字符可能太多了，但很少會遇到那樣的 Unicode 字符。

UTF8 編碼規(guī)則：如果只有一個字節(jié)則其最高二進制位為 0，如果是多字節(jié)，其第一個字節(jié)從最高位開始，連續(xù)的二進制位值為 1，1 的個數決定了其編碼的字節(jié)數，其余各字節(jié)均以 10 開頭。

// Unicode6.1定義范圍：0~10 FFFF
// 20 0000 ~ 3FF FFFF 和 400 0000 ~ 7FFF FFFF 屬于 UCS-4，UTF8 現(xiàn)在已經棄用了這部分內容
---------------------------------------------------------------------------------
n | Unicode (十六進制)    | UTF - 8 (二進制)
--+-----------------------+------------------------------------------------------
1 | 0000 0000 - 0000 007F | 0xxxxxxx
2 | 0000 0080 - 0000 07FF | 110xxxxx 10xxxxxx
3 | 0000 0800 - 0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
4 | 0001 0000 - 0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
---------------------------------------------------------------------------------
// 以下部分棄用
5 | 0020 0000 - 03FF FFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6 | 0400 0000 - 7FFF FFFF | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
---------------------------------------------------------------------------------

Java 如何判斷單個字符編碼是否是 UTF8

假設當前需要判定一個 byte[] 數組內的編碼是否是 UTF8 編碼，這個 byte[] 是 String 通過 getBytes() 方法獲取的，判斷單個字符的編碼步驟如下：

從 byte[] 數組中獲取一個 byte 并將它轉換成無符號類型的 int 變量 value
判斷 value 是否是 ASCII 字符（小于 0x80）
判斷 value 是否是無效字符（大于 0x80，小于 0xC0，參照 UTF8 編碼規(guī)則）
確認該字符編碼的是幾字節(jié) UTF8
確認該字符編碼的除第一個字節(jié)外的字節(jié)是否滿足 10xxxxxx 格式

PS：

Java getBytes() 獲取的是帶符號的十六進制，實際處理時需要使用無符號十六進制。

GBK 和 UTF8 中 ASCII 字符的值是一樣的。

具體程序

將十六進制流中的所有編碼按照單個判定的方式便利一遍，如果有不符合 UTF8 編碼規(guī)則的字符出現(xiàn)，則該十六進制流就不是 UTF8 編碼格式的字串。

public static int byteToUnsignedInt(byte data) {
    return data & 0xff;
}
public boolean isUTF8(byte[] pBuffer) {
    boolean IsUTF8 = true;
    boolean IsASCII = true;
    int size = pBuffer.length;
    int i = 0;
    while (i < size) {
        int value = byteToUnsignedInt(pBuffer[i]);
        if (value < 0x80) {
            // (10000000): 值小于 0x80 的為 ASCII 字符
            if (i >= size - 1) {
                if (IsASCII) {
                    // 假設純 ASCII 字符不是 UTF 格式
                    IsUTF8 = false;
                }
                break;
            }
            i++;
        } else if (value < 0xC0) {
            // (11000000): 值介于 0x80 與 0xC0 之間的為無效 UTF-8 字符
            IsASCII = false;
            IsUTF8 = false;
            break;
        } else if (value < 0xE0) {
            // (11100000): 此范圍內為 2 字節(jié) UTF-8 字符
            IsASCII = false;
            if (i >= size - 1) {
                break;
            }
            int value1 = byteToUnsignedInt(pBuffer[i + 1]);
            if ((value1 & (0xC0)) != 0x80) {
                IsUTF8 = false;
                break;
            }
            i += 2;
        } else if (value < 0xF0) {
            IsASCII = false;
            // (11110000): 此范圍內為 3 字節(jié) UTF-8 字符
            if (i >= size - 2) {
                break;
            }
            int value1 = byteToUnsignedInt(pBuffer[i + 1]);
            int value2 = byteToUnsignedInt(pBuffer[i + 2]);
            if ((value1 & (0xC0)) != 0x80 || (value2 & (0xC0)) != 0x80) {
                IsUTF8 = false;
                break;
            }
            i += 3;
        }  else if (value < 0xF8) {
            IsASCII = false;
            // (11111000): 此范圍內為 4 字節(jié) UTF-8 字符
            if (i >= size - 3) {
                break;
            }
            int value1 = byteToUnsignedInt(pBuffer[i + 1]);
            int value2 = byteToUnsignedInt(pBuffer[i + 2]);
            int value3 = byteToUnsignedInt(pBuffer[i + 3]);
            if ((value1 & (0xC0)) != 0x80
                || (value2 & (0xC0)) != 0x80
                || (value3 & (0xC0)) != 0x80) {
                IsUTF8 = false;
                break;
            }
            i += 3;
        } else {
            IsUTF8 = false;
            IsASCII = false;
            break;
        }
    }
    return IsUTF8;
}

UTF8 編碼轉 GBK 編碼

// Unicode
String unicodeString = "張三";
// 獲取 UTF8 編碼
byte[] nameUTF8 = unicodeString.getBytes("utf-8");
// UTF8 編碼轉 str
String str = new String(name, "utf-8");
// 獲取 GBK 編碼
byte[] nameGBK = str.getBytes("gbk");

以上就是Java判斷字節(jié)流是否是 UTF8編碼方法示例的詳細內容，更多關于Java字節(jié)流UTF8編碼判斷的資料請關注腳本之家其它相關文章！

您可能感興趣的文章: