一文帶你了解Python中的編碼和解碼
什么是編碼和解碼
大家都知道計(jì)算機(jī)是二進(jìn)制的世界,計(jì)算機(jī)系統(tǒng)只能識(shí)別數(shù)字0和1組成的一串串的數(shù)字。1位數(shù)字代表1個(gè)比特(bit),每8個(gè)比特代表1個(gè)字節(jié)(byte),那么1個(gè)字節(jié)如果都為數(shù)字1,如11111111,代表的最大數(shù)字是255。
如果是2 個(gè)字節(jié)最大可以表示為 65535,4 個(gè)字節(jié)最大表示為4294967295。
每一種不同的數(shù)字0和1的組合,就可以代表一個(gè)字符?;谏鲜鲈沓霈F(xiàn)了各種編碼格式:
ASCII 編碼
ASCII(American Standard Code for Information Interchange,美國(guó)信息交換標(biāo)準(zhǔn)代碼)字符集是一個(gè)基于拉丁字母的字符編碼系統(tǒng),它主要用于顯示現(xiàn)代英語和其他西歐語言。ASCII字符集共定義了128個(gè)字符,每個(gè)字符都有一個(gè)對(duì)應(yīng)的數(shù)字,這個(gè)數(shù)字被稱為碼點(diǎn)(code point)??勺畲髷U(kuò)展為 256 個(gè)字符,僅支持英文字母,數(shù)字和少部分符號(hào),不支持中文。
以下是ASCII字符集中一些常見的字符及其對(duì)應(yīng)的數(shù)字(碼點(diǎn)):
- 空字符(Null):0
- 控制字符(如LF、CR、FF、DEL等):1-31(共31個(gè))
- 數(shù)字0-9:48-57
- 大寫英文字母A-Z:65-90
- 小寫英文字母a-z:97-122
- 標(biāo)點(diǎn)符號(hào)、運(yùn)算符號(hào)等:其他碼點(diǎn)(如33表示"!",34表示"""等)
- 刪除字符(DEL):127
GBK 編碼
中國(guó)文字博大精深,漢字特別多,其他編碼格式并不能滿足要求,所以才有了適合中文編解碼的 GB2312。編碼(后來升級(jí)到了 GBK 編碼),可以容納將近7000個(gè)漢字。
Unicode
世界上除了英文/中文等還有各個(gè)國(guó)家的文字語言,每個(gè)國(guó)家的編碼不統(tǒng)一會(huì)帶來很多編解碼的困難,后來Unicode 字符集就出現(xiàn)了,它將所有的語言都容納在一起,后續(xù)為了在存儲(chǔ)和傳輸數(shù)據(jù)時(shí)節(jié)省空間,出現(xiàn)了目前常用的UTF8編碼。
編解碼基本原理
平常工作中,我們通過鍵盤輸入英文字符或者中文字符或者一些逗號(hào)等符號(hào),程序通過編碼將字符轉(zhuǎn)為計(jì)算機(jī)識(shí)別的2進(jìn)制字節(jié)流,當(dāng)計(jì)算機(jī)處理完成后再通過解碼轉(zhuǎn)為我們能識(shí)別的字符。
python的默認(rèn)編碼
安裝完python3版本的程序后,我們通過sys庫,檢查下默認(rèn)的編碼。
import sys print(sys.getdefaultencoding())
結(jié)果:
utf-8
因?yàn)閡tf-8本來就支持中文,所以我們可直接在python3版本上定義中文變量并直接使用,而不會(huì)出現(xiàn)亂碼問題。
什么是10進(jìn)制/2進(jìn)制/8進(jìn)制/16進(jìn)制
10進(jìn)制 | 通常我們說的數(shù)字,比如數(shù)字10 100 200等,沒有前綴表示 |
2進(jìn)制 | 由數(shù)字0和1組成,以0b或者0B前綴開頭,比如0b1010,換算為十進(jìn)制表示數(shù)字10 |
8進(jìn)制 | 由數(shù)字0到7組成,每3位2進(jìn)制數(shù)字組成一個(gè)8進(jìn)制數(shù),比如3位111表式數(shù)字7,所以最大數(shù)字為7,而000就表示為0。 以0O或者0o前綴開頭,比如0o12,換算為十進(jìn)制表示數(shù)字10 |
16進(jìn)制 | 由數(shù)字0到9,字母a,b,c,d,e,f共16位組成,字母a到f代表的是數(shù)字10到15;相當(dāng)于每4位2進(jìn)制數(shù)字組成一個(gè)16進(jìn)制數(shù),比如4位1111表式數(shù)字15,用f表示,而0000就表示為0。 以0x或者0X開頭,比如0xa,換算為十進(jìn)制表示數(shù)字10 |
python中可通過bin(),oct(),hex()函數(shù)依次將十進(jìn)制數(shù)轉(zhuǎn)換為2進(jìn)制,8進(jìn)制,16進(jìn)制。
#定義數(shù)字10 dig1 = 10 #轉(zhuǎn)為2進(jìn)制 bin_dig1 = bin(dig1) print(f'十進(jìn)制 數(shù)字10 轉(zhuǎn)為2進(jìn)制為:{bin_dig1}') #轉(zhuǎn)為8進(jìn)制 oct_dig1 = oct(dig1) print(f'十進(jìn)制 數(shù)字10 轉(zhuǎn)為8進(jìn)制為:{oct_dig1}') #轉(zhuǎn)為16進(jìn)制 hex_dig1 = hex(dig1) print(f'十進(jìn)制 數(shù)字10 轉(zhuǎn)為16進(jìn)制為:{hex_dig1}')
結(jié)果:
十進(jìn)制 數(shù)字10 轉(zhuǎn)為2進(jìn)制為:0b1010
十進(jìn)制 數(shù)字10 轉(zhuǎn)為8進(jìn)制為:0o12
十進(jìn)制 數(shù)字10 轉(zhuǎn)為16進(jìn)制為:0xa
同理2進(jìn)制,8進(jìn)制和16進(jìn)制可通過int()函數(shù)轉(zhuǎn)為10進(jìn)制。
print(f'2進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:{int(bin_dig1,base=2)}') print(f'8進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:{int(oct_dig1,base=8)}') print(f'16進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:{int(hex_dig1,base=16)}')
結(jié)果:
2進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:10
8進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:10
16進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:10
python的字符串編解碼
使用str.encode()編碼 ,str.decode()解碼
userinfo = '章三'
以 encoding 指定的編碼格式編碼 string, 默認(rèn)會(huì)使用‘utf-8’編碼,所以encoding='utf-8'這個(gè)參數(shù)可以不帶; 如果采用其他編碼格式,需要帶上encoding參數(shù)。
userinfo_byte = userinfo.encode(encoding='utf-8') print(userinfo_byte) #結(jié)果顯示被編碼為 前綴帶字母b的字節(jié)碼 b'\xe7\xab\xa0\xe4\xb8\x89'
編碼后字符串類型為bytes,輸出的是16進(jìn)制的字節(jié)碼,而且1個(gè)中文字占了3個(gè)字節(jié)
print(type(userinfo_byte)) <class 'bytes'>
通過decode函數(shù)解碼字節(jié)碼為字符串。
print(userinfo_byte.decode()) 章三
再舉個(gè)例子: 比如我們?cè)趆ttp請(qǐng)求拿到的響應(yīng)中,body體為'sdsdsdsdsdAAAAA10000000-s\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0\xe4\xb8\xad\xe5\x9b\xbd',像這種既有字母符號(hào) 又有一些十六進(jìn)制的字符,一般都是編碼后的字節(jié)碼(因?yàn)橛⑽淖帜?符號(hào)本身就支持ASCII碼,轉(zhuǎn)碼后也會(huì)保留原樣子)。 此時(shí)我們?cè)谶@些字符串加上字母b的前綴,然后用decode函數(shù)節(jié)碼就得到原字符串
str_b = b'sdsdsdsdsdAAAAA10000000-s\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0\xe4\xb8\xad\xe5\x9b\xbd' print(str_b.decode())
解碼后打印結(jié)果:
sdsdsdsdsdAAAAA10000000-s我愛你中國(guó)
解碼的亂碼問題
如果編碼和解碼使用的編碼不一樣,解碼后會(huì)出現(xiàn)亂碼。 比如下面的示例將中文通過utf-8編碼,然后通過gbk解碼
使用bytes()函數(shù)定義編碼格式為utf-8的字節(jié)碼,解碼使用gbk編碼
zhongwen = bytes('章三',encoding='utf-8') print(zhongwen.decode(encoding='gbk'))
打印結(jié)果時(shí)出現(xiàn)亂碼:
绔犱笁
所以我們?cè)谄綍r(shí)使用時(shí)一般都是統(tǒng)一編碼格式,目前使用的都是默認(rèn)編碼utf-8。
16進(jìn)制字符串解碼為普通字符串
以上中文“章三”編碼輸出的16進(jìn)制為b'\xe7\xab\xa0\xe4\xb8\x89'可通過str.decode().hex()函數(shù)轉(zhuǎn)為16進(jìn)制字符串:“e7aba0e4b889”
然后使用codecs.decode() 或者bytes.fromhex()或者binascii.unhexlify()方法將16進(jìn)制的字符串解碼為普通字符串。
codecs.decode()
import codecs hex_str = "e7aba0e4b889" str_result = codecs.decode(hex_str, "hex").decode("utf-8") print(str_result) 章三
binascii.unhexlify()
import binascii byte_str = binascii.unhexlify(hex_str) str_result = byte_str.decode("utf-8") print(str_result)
bytes.fromhex()
byte_str = bytes.fromhex(hex_str) str_result = byte_str.decode("utf-8") print(str_result)
python字符串和unicode類型編碼轉(zhuǎn)換
char = "章三" char.encode(encoding='unicode_escape')
通過unicode_escape編碼為unicode類型,結(jié)果如下:
b'\\u7ae0\\u4e09'
unicode字節(jié)碼以\\u的前綴表示,unicode編碼中每個(gè)中文占2個(gè)字節(jié)(跟utf8編碼不同,utf8編碼占用3個(gè)字節(jié)),7ae0和4e09表示的是16進(jìn)制,16進(jìn)制轉(zhuǎn)為10進(jìn)制數(shù)分別是31456,19977
print(f'16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制為:{int("7ae0",base=16)}') print(f'16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制為:{int("4e09",base=16)}')
結(jié)果:
16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制為:31456
16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制為:19977
通過chr函數(shù)可以解析出某數(shù)字對(duì)應(yīng)的unicode字符
print(f'16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符:{chr(int("7ae0",base=16))}') print(f'16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符:{chr(int("4e09",base=16))}')
結(jié)果: 可以反推出我們字符串定義的“章三”兩個(gè)漢字。
16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符:章
16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符:三
通過ord()函數(shù)可以直接得出unicode字符對(duì)應(yīng)的編碼中的數(shù)字
print(f'漢字 章 對(duì)應(yīng)的unicode編碼中的數(shù)字是 {ord("章")}') print(f'漢字 三 對(duì)應(yīng)的unicode編碼中的數(shù)字是 {ord("三")}')
結(jié)果:
漢字 章 對(duì)應(yīng)的unicode編碼中的數(shù)字是 31456
漢字 三 對(duì)應(yīng)的unicode編碼中的數(shù)字是 19977
到此這篇關(guān)于一文帶你了解Python中的編碼和解碼的文章就介紹到這了,更多相關(guān)Python編碼和解碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python中join與os.path.join()函數(shù)實(shí)例詳解
os.path.join()函數(shù)用于路徑拼接文件路徑,下面這篇文章主要給大家介紹了關(guān)于python中join與os.path.join()函數(shù)的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-03-03Python連接Impala實(shí)現(xiàn)步驟解析
這篇文章主要介紹了Python連接Impala實(shí)現(xiàn)步驟解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-08-08如何用Python Beautiful?Soup解析HTML內(nèi)容
Beautiful Soup是一種Python的解析庫,主要用于解析和處理HTML/XML內(nèi)容,詳細(xì)介紹Beautiful Soup的使用方式和應(yīng)用場(chǎng)景,本文給大家介紹的非常詳細(xì),需要的朋友可以參考下2023-05-05如何在Python中利用matplotlib.pyplot畫出函數(shù)圖詳解
通過圖像可以直觀地學(xué)習(xí)函數(shù)變化、分布等規(guī)律,在學(xué)習(xí)函數(shù)、概率分布等方面效果顯著,下面這篇文章主要給大家介紹了關(guān)于如何在Python中利用matplotlib.pyplot畫出函數(shù)圖的相關(guān)資料,需要的朋友可以參考下2022-08-08python使用循環(huán)實(shí)現(xiàn)批量創(chuàng)建文件夾示例
這篇文章主要介紹了python使用循環(huán)實(shí)現(xiàn)批量創(chuàng)建文件夾示例,需要的朋友可以參考下2014-03-03