腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

Python實(shí)現(xiàn)模擬錕斤拷等各類(lèi)亂碼詳解

更新時(shí)間：2023年02月23日 10:24:40 作者：小小明-代碼實(shí)體

說(shuō)到亂碼問(wèn)題就不得不提到錕斤拷，這算是非常常見(jiàn)的一種亂碼形式，那么它到底是經(jīng)過(guò)何種錯(cuò)誤操作產(chǎn)生的呢？本文我們就來(lái)一步步探究

錕拷碼和口字碼

說(shuō)到亂碼問(wèn)題就不得不提到錕斤拷，這算是非常常見(jiàn)的一種亂碼形式，那么它到底是經(jīng)過(guò)何種錯(cuò)誤操作產(chǎn)生的呢？下面我們一步步探究。

看一個(gè)基本示例：

"??".encode("u8").decode("gbk")

'錕斤拷'

我們將?字符以UTF-8編碼后，以GBK編碼解碼就可以得到錕斤拷的亂碼。

那么為什么錕斤拷為什么如此常見(jiàn)呢？這是因?yàn)榇蟛糠志幊陶Z(yǔ)言在使用UNICODE系列的編碼去解碼時(shí)，會(huì)將不識(shí)別的字節(jié)編碼為0xFFFD(65533)即?字符表示未知字符進(jìn)行占位：

"\uFFFD"

'?'

注意：UNICODE系列包括UTF-8、UTF-16、UTF-32編碼，一般UNICODE編碼指UTF-16編碼。在python中unicode_escape編碼表示UNICODE編碼的的轉(zhuǎn)義形式：

"\uFFFD".encode("unicode_escape").decode()

'\\ufffd'

對(duì)于Python，默認(rèn)情況下解碼碰到未知字符時(shí)會(huì)直接拋出異常，但是如果設(shè)置errors參數(shù)為replace時(shí)，則會(huì)將未知字符解碼為?占位。

將漢字用GBK編碼：

"小小明".encode("gbk")

b'\xd0\xa1\xd0\xa1\xc3\xf7'

將上述編碼結(jié)果用UTF-8編碼解碼，并設(shè)置為替換模式：

"小小明".encode("gbk").decode("u8", "replace")

'СС??'

0xd0a1被解碼成С，但是0xc3和0xf7無(wú)法被UTF-8編碼識(shí)別，只能用占位符?替換，于是就得到了上面的結(jié)果。

此時(shí)我們?cè)倬幋a并解碼：

"小小明".encode("gbk").decode("u8", "replace") \
    .encode("u8").decode("gbk", "replace")

'小小錕斤拷'

這是因?yàn)?被編碼成了0xEFBFBD

"??".encode("u8")

b'\xef\xbf\xbd\xef\xbf\xbd'

而0xEFBFBDEFBFBD被GBK解碼時(shí)，正好就是錕（0xEFBF），斤（0xBDEF），拷（0xBFBD）。

上述以?為主的亂碼字符就是口字碼，原因是以UTF-8編碼讀取了GBK編碼的中文。

而錕拷體則是大部分都是錕斤拷的全中文字符，原因是用GBK編碼讀取了UTF-8編碼的口字碼中文。

古文碼與問(wèn)句碼

問(wèn)句碼產(chǎn)生的核心原因在于GBK對(duì)于無(wú)法編碼的字符會(huì)使用?填充：

"???".encode("gbk", "replace")

b'??'

古文碼則與前面的口字碼產(chǎn)生原因相反，使用GBK編碼讀取以UTF-8編碼的中文：

"小小明".encode("u8").decode("gbk", "replace")

'灝忓皬鏄?'

此時(shí)的灝忓皬鏄就非常像古文，gbk解碼對(duì)于不識(shí)別的字節(jié)也使用?占位。

此時(shí)gbk編碼對(duì)于?編碼失敗，使用?替代：

'灝忓皬鏄?'.encode("gbk", "replace")

b'\xe5\xb0\x8f\xe5\xb0\x8f\xe6\x98?'

此時(shí)再用UTF-8解碼就得到了問(wèn)句碼：

b'\xe5\xb0\x8f\xe5\xb0\x8f\xe6\x98?'.decode("u8", "ignore")

'小小?'

不過(guò)問(wèn)句碼只在原始字符串為奇數(shù)時(shí)產(chǎn)生，如果原始字符串長(zhǎng)度為偶數(shù)，使用上述編碼方式則可以原樣還原字符串：

"小小明月".encode("u8").decode("gbk", "replace") \
    .encode("gbk", "replace").decode("u8", "ignore")

'小小明月'

這樣說(shuō)明只要我們將原始漢字字符串填充到偶數(shù)，就可以使用古文碼實(shí)現(xiàn)可逆的數(shù)據(jù)傳輸，而錕拷體則是一種不可逆的亂碼。

符號(hào)碼和拼音碼

還有兩種可逆的亂碼，我們先看看符號(hào)碼：

"小小明".encode("u8").decode("iso8859-1")

'å°\x8få°\x8fæ\x98\x8e'

像這種大部分字符為各種符號(hào)的亂碼就稱為符號(hào)碼，符號(hào)碼可以直接還原為原始的文本：

'?°\x8f?°\x8f?\x98\x8e'.encode("iso8859-1").decode("u8")

'小小明'

再看看拼音碼：

"小小明".encode("gbk").decode("iso8859-1")

'Ð¡Ð¡Ã÷'

這種大部分字符都是帶有聲調(diào)的字母稱為拼音碼，同樣可以直接還原：

'D?D??÷'.encode("iso8859-1").decode("gbk")

'小小明'

總結(jié)

名稱	示例	特點(diǎn)	原因
口字碼	СС??	大部分字符是問(wèn)號(hào)小方塊	UTF-8解碼GBK編碼的中文
錕拷體	錕斤拷小小錕斤拷學(xué)習(xí)錕斤拷	全中文字符，大部分都是"錕斤拷"這幾個(gè)字符	GBK解碼UTF-8編碼的口字碼
古文碼	灝忓皬鏄庢湀	大部分都是生僻字，像古文	GBK解碼UTF-8編碼的中文漢字
問(wèn)句碼	小小?	字符串長(zhǎng)度為奇數(shù)時(shí)，結(jié)尾為問(wèn)號(hào)	GBK遇到不能編碼的字符時(shí)填充
符號(hào)碼	å¥½å¥½å\xad¦å¤©å¤©å\xad¦	大部分字符為各種符號(hào)	ISO8859-1編碼解碼UTF-8編碼的中文漢字
拼音碼	ºÃºÃÑ§Ï°ÌìÌìÏòÉÏ	大部分字符都是帶有聲調(diào)的字母	ISO8859-1編碼解碼GBK編碼的中文漢字