欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

一文帶你了解Python中的編碼和解碼

 更新時(shí)間:2025年02月07日 09:55:48   作者:科雷learning  
這篇文章主要為大家詳細(xì)介紹了常見編碼和解碼的基本原理,例如ASCII,GBK以及Python中的默認(rèn)編碼等,感興趣的小伙伴可以跟隨小編一了解一下

什么是編碼和解碼

大家都知道計(jì)算機(jī)是二進(jìn)制的世界,計(jì)算機(jī)系統(tǒng)只能識(shí)別數(shù)字0和1組成的一串串的數(shù)字。1位數(shù)字代表1個(gè)比特(bit),每8個(gè)比特代表1個(gè)字節(jié)(byte),那么1個(gè)字節(jié)如果都為數(shù)字1,如11111111,代表的最大數(shù)字是255。

如果是2 個(gè)字節(jié)最大可以表示為 65535,4 個(gè)字節(jié)最大表示為4294967295。

每一種不同的數(shù)字0和1的組合,就可以代表一個(gè)字符?;谏鲜鲈沓霈F(xiàn)了各種編碼格式:

ASCII 編碼

ASCII(American Standard Code for Information Interchange,美國(guó)信息交換標(biāo)準(zhǔn)代碼)字符集是一個(gè)基于拉丁字母的字符編碼系統(tǒng),它主要用于顯示現(xiàn)代英語和其他西歐語言。ASCII字符集共定義了128個(gè)字符,每個(gè)字符都有一個(gè)對(duì)應(yīng)的數(shù)字,這個(gè)數(shù)字被稱為碼點(diǎn)(code point)??勺畲髷U(kuò)展為 256 個(gè)字符,僅支持英文字母,數(shù)字和少部分符號(hào),不支持中文。

以下是ASCII字符集中一些常見的字符及其對(duì)應(yīng)的數(shù)字(碼點(diǎn)):

  • 空字符(Null):0
  • 控制字符(如LF、CR、FF、DEL等):1-31(共31個(gè))
  • 數(shù)字0-9:48-57
  • 大寫英文字母A-Z:65-90
  • 小寫英文字母a-z:97-122
  • 標(biāo)點(diǎn)符號(hào)、運(yùn)算符號(hào)等:其他碼點(diǎn)(如33表示"!",34表示"""等)
  • 刪除字符(DEL):127

GBK 編碼

中國(guó)文字博大精深,漢字特別多,其他編碼格式并不能滿足要求,所以才有了適合中文編解碼的 GB2312。編碼(后來升級(jí)到了 GBK 編碼),可以容納將近7000個(gè)漢字。

Unicode

世界上除了英文/中文等還有各個(gè)國(guó)家的文字語言,每個(gè)國(guó)家的編碼不統(tǒng)一會(huì)帶來很多編解碼的困難,后來Unicode 字符集就出現(xiàn)了,它將所有的語言都容納在一起,后續(xù)為了在存儲(chǔ)和傳輸數(shù)據(jù)時(shí)節(jié)省空間,出現(xiàn)了目前常用的UTF8編碼。

編解碼基本原理

平常工作中,我們通過鍵盤輸入英文字符或者中文字符或者一些逗號(hào)等符號(hào),程序通過編碼將字符轉(zhuǎn)為計(jì)算機(jī)識(shí)別的2進(jìn)制字節(jié)流,當(dāng)計(jì)算機(jī)處理完成后再通過解碼轉(zhuǎn)為我們能識(shí)別的字符。

python的默認(rèn)編碼

安裝完python3版本的程序后,我們通過sys庫,檢查下默認(rèn)的編碼。

import sys
print(sys.getdefaultencoding())

結(jié)果:

utf-8

因?yàn)閡tf-8本來就支持中文,所以我們可直接在python3版本上定義中文變量并直接使用,而不會(huì)出現(xiàn)亂碼問題。

什么是10進(jìn)制/2進(jìn)制/8進(jìn)制/16進(jìn)制

10進(jìn)制通常我們說的數(shù)字,比如數(shù)字10 100 200等,沒有前綴表示
2進(jìn)制由數(shù)字0和1組成,以0b或者0B前綴開頭,比如0b1010,換算為十進(jìn)制表示數(shù)字10
8進(jìn)制由數(shù)字0到7組成,每3位2進(jìn)制數(shù)字組成一個(gè)8進(jìn)制數(shù),比如3位111表式數(shù)字7,所以最大數(shù)字為7,而000就表示為0。
以0O或者0o前綴開頭,比如0o12,換算為十進(jìn)制表示數(shù)字10
16進(jìn)制由數(shù)字0到9,字母a,b,c,d,e,f共16位組成,字母a到f代表的是數(shù)字10到15;相當(dāng)于每4位2進(jìn)制數(shù)字組成一個(gè)16進(jìn)制數(shù),比如4位1111表式數(shù)字15,用f表示,而0000就表示為0。
以0x或者0X開頭,比如0xa,換算為十進(jìn)制表示數(shù)字10

python中可通過bin(),oct(),hex()函數(shù)依次將十進(jìn)制數(shù)轉(zhuǎn)換為2進(jìn)制,8進(jìn)制,16進(jìn)制。

#定義數(shù)字10
dig1 = 10
 
#轉(zhuǎn)為2進(jìn)制
bin_dig1 = bin(dig1)
print(f'十進(jìn)制 數(shù)字10 轉(zhuǎn)為2進(jìn)制為:{bin_dig1}')
 
#轉(zhuǎn)為8進(jìn)制
oct_dig1 = oct(dig1)
print(f'十進(jìn)制 數(shù)字10 轉(zhuǎn)為8進(jìn)制為:{oct_dig1}')
 
#轉(zhuǎn)為16進(jìn)制
hex_dig1 = hex(dig1)
print(f'十進(jìn)制 數(shù)字10 轉(zhuǎn)為16進(jìn)制為:{hex_dig1}')

結(jié)果:

十進(jìn)制 數(shù)字10 轉(zhuǎn)為2進(jìn)制為:0b1010
十進(jìn)制 數(shù)字10 轉(zhuǎn)為8進(jìn)制為:0o12
十進(jìn)制 數(shù)字10 轉(zhuǎn)為16進(jìn)制為:0xa

同理2進(jìn)制,8進(jìn)制和16進(jìn)制可通過int()函數(shù)轉(zhuǎn)為10進(jìn)制。

print(f'2進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:{int(bin_dig1,base=2)}')
print(f'8進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:{int(oct_dig1,base=8)}')
print(f'16進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:{int(hex_dig1,base=16)}')

結(jié)果:

2進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:10
8進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:10
16進(jìn)制 數(shù)字10 轉(zhuǎn)為10進(jìn)制為:10

python的字符串編解碼

使用str.encode()編碼 ,str.decode()解碼

userinfo = '章三'

以 encoding 指定的編碼格式編碼 string,  默認(rèn)會(huì)使用‘utf-8’編碼,所以encoding='utf-8'這個(gè)參數(shù)可以不帶; 如果采用其他編碼格式,需要帶上encoding參數(shù)。

userinfo_byte = userinfo.encode(encoding='utf-8')
print(userinfo_byte)
#結(jié)果顯示被編碼為 前綴帶字母b的字節(jié)碼
b'\xe7\xab\xa0\xe4\xb8\x89'

編碼后字符串類型為bytes,輸出的是16進(jìn)制的字節(jié)碼,而且1個(gè)中文字占了3個(gè)字節(jié)

print(type(userinfo_byte))
<class 'bytes'>

通過decode函數(shù)解碼字節(jié)碼為字符串。

print(userinfo_byte.decode())
章三

再舉個(gè)例子: 比如我們?cè)趆ttp請(qǐng)求拿到的響應(yīng)中,body體為'sdsdsdsdsdAAAAA10000000-s\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0\xe4\xb8\xad\xe5\x9b\xbd',像這種既有字母符號(hào) 又有一些十六進(jìn)制的字符,一般都是編碼后的字節(jié)碼(因?yàn)橛⑽淖帜?符號(hào)本身就支持ASCII碼,轉(zhuǎn)碼后也會(huì)保留原樣子)。 此時(shí)我們?cè)谶@些字符串加上字母b的前綴,然后用decode函數(shù)節(jié)碼就得到原字符串

str_b = b'sdsdsdsdsdAAAAA10000000-s\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0\xe4\xb8\xad\xe5\x9b\xbd'
print(str_b.decode())

解碼后打印結(jié)果:

sdsdsdsdsdAAAAA10000000-s我愛你中國(guó)

解碼的亂碼問題

如果編碼和解碼使用的編碼不一樣,解碼后會(huì)出現(xiàn)亂碼。 比如下面的示例將中文通過utf-8編碼,然后通過gbk解碼

使用bytes()函數(shù)定義編碼格式為utf-8的字節(jié)碼,解碼使用gbk編碼

zhongwen = bytes('章三',encoding='utf-8')
print(zhongwen.decode(encoding='gbk'))

打印結(jié)果時(shí)出現(xiàn)亂碼:

绔犱笁

所以我們?cè)谄綍r(shí)使用時(shí)一般都是統(tǒng)一編碼格式,目前使用的都是默認(rèn)編碼utf-8。

16進(jìn)制字符串解碼為普通字符串

以上中文“章三”編碼輸出的16進(jìn)制為b'\xe7\xab\xa0\xe4\xb8\x89'可通過str.decode().hex()函數(shù)轉(zhuǎn)為16進(jìn)制字符串:“e7aba0e4b889”

然后使用codecs.decode() 或者bytes.fromhex()或者binascii.unhexlify()方法將16進(jìn)制的字符串解碼為普通字符串。

codecs.decode()

import codecs
hex_str = "e7aba0e4b889"
str_result = codecs.decode(hex_str, "hex").decode("utf-8")
print(str_result)
章三

binascii.unhexlify()

import binascii
byte_str = binascii.unhexlify(hex_str)
str_result = byte_str.decode("utf-8")
print(str_result)

bytes.fromhex()

byte_str = bytes.fromhex(hex_str)
str_result = byte_str.decode("utf-8")
print(str_result)

python字符串和unicode類型編碼轉(zhuǎn)換

char = "章三"
char.encode(encoding='unicode_escape')

通過unicode_escape編碼為unicode類型,結(jié)果如下:

b'\\u7ae0\\u4e09'

unicode字節(jié)碼以\\u的前綴表示,unicode編碼中每個(gè)中文占2個(gè)字節(jié)(跟utf8編碼不同,utf8編碼占用3個(gè)字節(jié)),7ae0和4e09表示的是16進(jìn)制,16進(jìn)制轉(zhuǎn)為10進(jìn)制數(shù)分別是31456,19977

print(f'16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制為:{int("7ae0",base=16)}')
print(f'16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制為:{int("4e09",base=16)}')

結(jié)果:

16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制為:31456
16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制為:19977

通過chr函數(shù)可以解析出某數(shù)字對(duì)應(yīng)的unicode字符

print(f'16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符:{chr(int("7ae0",base=16))}')
print(f'16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符:{chr(int("4e09",base=16))}')

結(jié)果: 可以反推出我們字符串定義的“章三”兩個(gè)漢字。

16進(jìn)制 7ae0 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符:章
16進(jìn)制 4e09 轉(zhuǎn)為10進(jìn)制 通過chr函數(shù)獲取對(duì)應(yīng)數(shù)字的字符:三

通過ord()函數(shù)可以直接得出unicode字符對(duì)應(yīng)的編碼中的數(shù)字

print(f'漢字 章 對(duì)應(yīng)的unicode編碼中的數(shù)字是 {ord("章")}')
print(f'漢字 三 對(duì)應(yīng)的unicode編碼中的數(shù)字是 {ord("三")}')

結(jié)果:

漢字 章 對(duì)應(yīng)的unicode編碼中的數(shù)字是 31456
漢字 三 對(duì)應(yīng)的unicode編碼中的數(shù)字是 19977

到此這篇關(guān)于一文帶你了解Python中的編碼和解碼的文章就介紹到這了,更多相關(guān)Python編碼和解碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python中join與os.path.join()函數(shù)實(shí)例詳解

    python中join與os.path.join()函數(shù)實(shí)例詳解

    os.path.join()函數(shù)用于路徑拼接文件路徑,下面這篇文章主要給大家介紹了關(guān)于python中join與os.path.join()函數(shù)的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-03-03
  • Python連接Impala實(shí)現(xiàn)步驟解析

    Python連接Impala實(shí)現(xiàn)步驟解析

    這篇文章主要介紹了Python連接Impala實(shí)現(xiàn)步驟解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-08-08
  • 一文教你解決Python不支持中文路徑的問題

    一文教你解決Python不支持中文路徑的問題

    Python是一種廣泛使用的高級(jí)編程語言,然而在處理包含中文字符的文件路徑時(shí),Python有時(shí)會(huì)表現(xiàn)出一些不友好的行為,下面小編就來為大家介紹一下具體的解決方法吧
    2025-03-03
  • Python打印不合法的文件名

    Python打印不合法的文件名

    這篇文章主要介紹了Python打印不合法的文件名,文中講解非常細(xì)致,代碼幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下的相關(guān)資料
    2020-07-07
  • 聊聊Python中的@符號(hào)是什么意思

    聊聊Python中的@符號(hào)是什么意思

    @符號(hào)用做函數(shù)的修飾符,可以在模塊或者類的定義層內(nèi)對(duì)函數(shù)進(jìn)行修飾,下面這篇文章主要給大家介紹了關(guān)于Python中@符號(hào)是什么意思的相關(guān)資料,需要的朋友可以參考下
    2021-09-09
  • 如何用Python Beautiful?Soup解析HTML內(nèi)容

    如何用Python Beautiful?Soup解析HTML內(nèi)容

    Beautiful Soup是一種Python的解析庫,主要用于解析和處理HTML/XML內(nèi)容,詳細(xì)介紹Beautiful Soup的使用方式和應(yīng)用場(chǎng)景,本文給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2023-05-05
  • 如何在Python中利用matplotlib.pyplot畫出函數(shù)圖詳解

    如何在Python中利用matplotlib.pyplot畫出函數(shù)圖詳解

    通過圖像可以直觀地學(xué)習(xí)函數(shù)變化、分布等規(guī)律,在學(xué)習(xí)函數(shù)、概率分布等方面效果顯著,下面這篇文章主要給大家介紹了關(guān)于如何在Python中利用matplotlib.pyplot畫出函數(shù)圖的相關(guān)資料,需要的朋友可以參考下
    2022-08-08
  • Python如何刪除print()中的空格

    Python如何刪除print()中的空格

    這篇文章主要介紹了Python如何刪除print()中的空格問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • python使用循環(huán)實(shí)現(xiàn)批量創(chuàng)建文件夾示例

    python使用循環(huán)實(shí)現(xiàn)批量創(chuàng)建文件夾示例

    這篇文章主要介紹了python使用循環(huán)實(shí)現(xiàn)批量創(chuàng)建文件夾示例,需要的朋友可以參考下
    2014-03-03
  • 淺談Pandas 排序之后索引的問題

    淺談Pandas 排序之后索引的問題

    今天小編就為大家分享一篇淺談Pandas 排序之后索引的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-06-06

最新評(píng)論