快捷導(dǎo)航

一文帶你了解Python中的編碼和解碼

更新時(shí)間：2025年02月07日 09:55:48 作者：科雷learning

這篇文章主要為大家詳細(xì)介紹了常見編碼和解碼的基本原理,例如ASCII,GBK以及Python中的默認(rèn)編碼等,感興趣的小伙伴可以跟隨小編一了解一下

什么是編碼和解碼

大家都知道計(jì)算機(jī)是二進(jìn)制的世界，計(jì)算機(jī)系統(tǒng)只能識(shí)別數(shù)字0和1組成的一串串的數(shù)字。1位數(shù)字代表1個(gè)比特（bit），每8個(gè)比特代表1個(gè)字節(jié)（byte），那么1個(gè)字節(jié)如果都為數(shù)字1，如11111111，代表的最大數(shù)字是255。

如果是2 個(gè)字節(jié)最大可以表示為 65535，4 個(gè)字節(jié)最大表示為4294967295。

每一種不同的數(shù)字0和1的組合，就可以代表一個(gè)字符?；谏鲜鲈沓霈F(xiàn)了各種編碼格式：

ASCII 編碼

ASCII（American Standard Code for Information Interchange，美國信息交換標(biāo)準(zhǔn)代碼）字符集是一個(gè)基于拉丁字母的字符編碼系統(tǒng)，它主要用于顯示現(xiàn)代英語和其他西歐語言。ASCII字符集共定義了128個(gè)字符，每個(gè)字符都有一個(gè)對(duì)應(yīng)的數(shù)字，這個(gè)數(shù)字被稱為碼點(diǎn)（code point）。可最大擴(kuò)展為 256 個(gè)字符，僅支持英文字母，數(shù)字和少部分符號(hào)，不支持中文。

以下是ASCII字符集中一些常見的字符及其對(duì)應(yīng)的數(shù)字（碼點(diǎn)）：

空字符（Null）：0
控制字符（如LF、CR、FF、DEL等）：1-31（共31個(gè)）
數(shù)字0-9：48-57
大寫英文字母A-Z：65-90
小寫英文字母a-z：97-122
標(biāo)點(diǎn)符號(hào)、運(yùn)算符號(hào)等：其他碼點(diǎn)（如33表示"!"，34表示"""等）
刪除字符（DEL）：127

GBK 編碼

中國文字博大精深，漢字特別多，其他編碼格式并不能滿足要求，所以才有了適合中文編解碼的 GB2312。編碼（后來升級(jí)到了 GBK 編碼），可以容納將近7000個(gè)漢字。

Unicode

世界上除了英文/中文等還有各個(gè)國家的文字語言，每個(gè)國家的編碼不統(tǒng)一會(huì)帶來很多編解碼的困難，后來Unicode 字符集就出現(xiàn)了，它將所有的語言都容納在一起，后續(xù)為了在存儲(chǔ)和傳輸數(shù)據(jù)時(shí)節(jié)省空間，出現(xiàn)了目前常用的UTF8編碼。

編解碼基本原理

平常工作中，我們通過鍵盤輸入英文字符或者中文字符或者一些逗號(hào)等符號(hào)，程序通過編碼將字符轉(zhuǎn)為計(jì)算機(jī)識(shí)別的2進(jìn)制字節(jié)流，當(dāng)計(jì)算機(jī)處理完成后再通過解碼轉(zhuǎn)為我們能識(shí)別的字符。

python的默認(rèn)編碼

安裝完python3版本的程序后，我們通過sys庫，檢查下默認(rèn)的編碼。

import sys
print(sys.getdefaultencoding())

結(jié)果：

utf-8

因?yàn)閡tf-8本來就支持中文，所以我們可直接在python3版本上定義中文變量并直接使用，而不會(huì)出現(xiàn)亂碼問題。

什么是10進(jìn)制/2進(jìn)制/8進(jìn)制/16進(jìn)制

10進(jìn)制	通常我們說的數(shù)字，比如數(shù)字10 100 200等，沒有前綴表示
2進(jìn)制	由數(shù)字0和1組成，以0b或者0B前綴開頭，比如0b1010，換算為十進(jìn)制表示數(shù)字10
8進(jìn)制	由數(shù)字0到7組成，每3位2進(jìn)制數(shù)字組成一個(gè)8進(jìn)制數(shù)，比如3位111表式數(shù)字7，所以最大數(shù)字為7，而000就表示為0。以0O或者0o前綴開頭，比如0o12，換算為十進(jìn)制表示數(shù)字10
16進(jìn)制	由數(shù)字0到9，字母a,b,c,d,e,f共16位組成，字母a到f代表的是數(shù)字10到15；相當(dāng)于每4位2進(jìn)制數(shù)字組成一個(gè)16進(jìn)制數(shù)，比如4位1111表式數(shù)字15，用f表示，而0000就表示為0。以0x或者0X開頭，比如0xa，換算為十進(jìn)制表示數(shù)字10

python中可通過bin(),oct(),hex()函數(shù)依次將十進(jìn)制數(shù)轉(zhuǎn)換為2進(jìn)制,8進(jìn)制,16進(jìn)制。

#定義數(shù)字10
dig1 = 10
 
#轉(zhuǎn)為2進(jìn)制
bin_dig1 = bin(dig1)
print(f'十進(jìn)制 數(shù)字10 轉(zhuǎn)為2進(jìn)制為：{bin_dig1}')
 
#轉(zhuǎn)為8進(jìn)制
oct_dig1 = oct(dig1)
print(f'十進(jìn)制 數(shù)字10 轉(zhuǎn)為8進(jìn)制為：{oct_dig1}')
 
#轉(zhuǎn)為16進(jìn)制
hex_dig1 = hex(dig1)
print(f'十進(jìn)制 數(shù)字10 轉(zhuǎn)為16進(jìn)制為：{hex_dig1}')

結(jié)果：

十進(jìn)制數(shù)字10 轉(zhuǎn)為2進(jìn)制為：0b1010
十進(jìn)制數(shù)字10 轉(zhuǎn)為8進(jìn)制為：0o12
十進(jìn)制數(shù)字10 轉(zhuǎn)為16進(jìn)制為：0xa

同理2進(jìn)制，8進(jìn)制和16進(jìn)制可通過int()函數(shù)轉(zhuǎn)為10進(jìn)制。

print(f'2進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為：{int(bin_dig1,base=2)}')
print(f'8進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為：{int(oct_dig1,base=8)}')
print(f'16進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為：{int(hex_dig1,base=16)}')

結(jié)果：

2進(jìn)制數(shù)字10 轉(zhuǎn)為10進(jìn)制為：10
8進(jìn)制數(shù)字10 轉(zhuǎn)為10進(jìn)制為：10
16進(jìn)制數(shù)字10 轉(zhuǎn)為10進(jìn)制為：10

python的字符串編解碼

使用str.encode()編碼，str.decode()解碼

userinfo = '章三'

以 encoding 指定的編碼格式編碼 string，默認(rèn)會(huì)使用‘utf-8’編碼，所以encoding='utf-8'這個(gè)參數(shù)可以不帶；如果采用其他編碼格式，需要帶上encoding參數(shù)。

userinfo_byte = userinfo.encode(encoding='utf-8')
print(userinfo_byte)
#結(jié)果顯示被編碼為 前綴帶字母b的字節(jié)碼
b'\xe7\xab\xa0\xe4\xb8\x89'

編碼后字符串類型為bytes，輸出的是16進(jìn)制的字節(jié)碼，而且1個(gè)中文字占了3個(gè)字節(jié)

print(type(userinfo_byte))
<class 'bytes'>

通過decode函數(shù)解碼字節(jié)碼為字符串。

print(userinfo_byte.decode())
章三

再舉個(gè)例子：比如我們?cè)趆ttp請(qǐng)求拿到的響應(yīng)中，body體為'sdsdsdsdsdAAAAA10000000-s\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0\xe4\xb8\xad\xe5\x9b\xbd'，像這種既有字母符號(hào) 又有一些十六進(jìn)制的字符，一般都是編碼后的字節(jié)碼（因?yàn)橛⑽淖帜?符號(hào)本身就支持ASCII碼，轉(zhuǎn)碼后也會(huì)保留原樣子）。此時(shí)我們?cè)谶@些字符串加上字母b的前綴，然后用decode函數(shù)節(jié)碼就得到原字符串

str_b = b'sdsdsdsdsdAAAAA10000000-s\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0\xe4\xb8\xad\xe5\x9b\xbd'
print(str_b.decode())

解碼后打印結(jié)果：

sdsdsdsdsdAAAAA10000000-s我愛你中國

解碼的亂碼問題

如果編碼和解碼使用的編碼不一樣，解碼后會(huì)出現(xiàn)亂碼。比如下面的示例將中文通過utf-8編碼，然后通過gbk解碼

使用bytes()函數(shù)定義編碼格式為utf-8的字節(jié)碼，解碼使用gbk編碼

zhongwen = bytes('章三',encoding='utf-8')
print(zhongwen.decode(encoding='gbk'))

打印結(jié)果時(shí)出現(xiàn)亂碼：

绔犱笁

所以我們?cè)谄綍r(shí)使用時(shí)一般都是統(tǒng)一編碼格式，目前使用的都是默認(rèn)編碼utf-8。

16進(jìn)制字符串解碼為普通字符串

以上中文“章三”編碼輸出的16進(jìn)制為b'\xe7\xab\xa0\xe4\xb8\x89'可通過str.decode().hex()函數(shù)轉(zhuǎn)為16進(jìn)制字符串：“e7aba0e4b889”

然后使用codecs.decode() 或者bytes.fromhex()或者binascii.unhexlify()方法將16進(jìn)制的字符串解碼為普通字符串。

codecs.decode()

import codecs
hex_str = "e7aba0e4b889"
str_result = codecs.decode(hex_str, "hex").decode("utf-8")
print(str_result)
章三

binascii.unhexlify()

import binascii
byte_str = binascii.unhexlify(hex_str)
str_result = byte_str.decode("utf-8")
print(str_result)

bytes.fromhex()

byte_str = bytes.fromhex(hex_str)
str_result = byte_str.decode("utf-8")
print(str_result)

python字符串和unicode類型編碼轉(zhuǎn)換

char = "章三"
char.encode(encoding='unicode_escape')

通過unicode_escape編碼為unicode類型，結(jié)果如下：

b'\\u7ae0\\u4e09'

unicode字節(jié)碼以\\u的前綴表示，unicode編碼中每個(gè)中文占2個(gè)字節(jié)（跟utf8編碼不同，utf8編碼占用3個(gè)字節(jié)），7ae0和4e09表示的是16進(jìn)制，16進(jìn)制轉(zhuǎn)為10進(jìn)制數(shù)分別是31456，19977

print(f'16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制為：{int("7ae0",base=16)}')
print(f'16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制為：{int("4e09",base=16)}')

結(jié)果：

16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制為：31456
16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制為：19977

通過chr函數(shù)可以解析出某數(shù)字對(duì)應(yīng)的unicode字符

print(f'16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符：{chr(int("7ae0",base=16))}')
print(f'16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符：{chr(int("4e09",base=16))}')

結(jié)果：可以反推出我們字符串定義的“章三”兩個(gè)漢字。

16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符：章
16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符：三

通過ord()函數(shù)可以直接得出unicode字符對(duì)應(yīng)的編碼中的數(shù)字

print(f'漢字 章 對(duì)應(yīng)的unicode編碼中的數(shù)字是 {ord("章")}')
print(f'漢字 三 對(duì)應(yīng)的unicode編碼中的數(shù)字是 {ord("三")}')

結(jié)果：

漢字章對(duì)應(yīng)的unicode編碼中的數(shù)字是 31456
漢字三對(duì)應(yīng)的unicode編碼中的數(shù)字是 19977

到此這篇關(guān)于一文帶你了解Python中的編碼和解碼的文章就介紹到這了,更多相關(guān)Python編碼和解碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

一文帶你了解Python中的編碼和解碼

目錄

什么是編碼和解碼

編解碼基本原理

python的默認(rèn)編碼

什么是10進(jìn)制/2進(jìn)制/8進(jìn)制/16進(jìn)制

python的字符串編解碼

python字符串和unicode類型編碼轉(zhuǎn)換

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具