快捷導(dǎo)航

關(guān)于Python字符編碼與二進(jìn)制不得不說的一些事

更新時(shí)間：2020年10月04日 08:57:10 作者：北門吹雪

這篇文章主要給大家介紹了關(guān)于Python字符編碼與二進(jìn)制不得不說的一些事，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

二進(jìn)制

核心思想：

　　馮諾依曼 + 圖靈機(jī)

　　電如何表示狀態(tài)，才能穩(wěn)定？

　　　　計(jì)算機(jī)開始設(shè)計(jì)的時(shí)候并不是考慮簡單，而是考慮能自動(dòng)完成任務(wù)與結(jié)果的可靠性，
　　　　簡單始終是建立再穩(wěn)定、可靠基礎(chǔ)上

　　　　經(jīng)過嘗試10進(jìn)制，但很難檢查電流的狀態(tài)差異并且很難穩(wěn)定狀態(tài)，最穩(wěn)定的檢查是
　　　　通電和不通電狀態(tài)，共兩種狀態(tài)那就規(guī)定通電為 1 不通電為 0，1和0的狀態(tài)邏
　　　　輯被稱為比特 Bit

　　那么如何用 0 和 1 表示數(shù)字和字符呢？

　　　　首先找出需要表示的字符，英文字符和數(shù)字字符才100多個(gè)，需要 7 個(gè)二進(jìn)制位就
　　　　可以全部表示，但為了可擴(kuò)展性，多出一位表示擴(kuò)展，這就是ASCII碼

　　　　因?yàn)橐粋€(gè)字符只需要最多8個(gè)二進(jìn)制位表示，所以規(guī)定8個(gè)字節(jié)作為存儲單位，所有
　　　　8 Bit = 1 Byte

　　　　規(guī)定字符用數(shù)字表示，數(shù)字用二進(jìn)制表示，也就是字符 --> 數(shù)字 -- > 二進(jìn)制，
　　　　那么文本信息就可以通過計(jì)算機(jī)存儲為二進(jìn)制，計(jì)算機(jī)上存儲的二進(jìn)制數(shù)可以逆轉(zhuǎn)
　　　　成文本信息

　　　　10 進(jìn)制到二進(jìn)制之間的關(guān)系轉(zhuǎn)換是固定的，那么字符到數(shù)字之間的轉(zhuǎn)換被我們稱為
　　　　字符編碼， ASCII碼 Unicode UTF-8 都是存儲字符與數(shù)字之間的映射關(guān)系

弄清楚幾個(gè)關(guān)系

　　1. 字符與數(shù)字之間的關(guān)系為映射關(guān)系，人為規(guī)定的標(biāo)準(zhǔn)

　　　這種映射關(guān)系，生活中普遍存在，如

　　　　a. 身份證信息與身份證號碼

　　　　b. 數(shù)據(jù)庫id與該行信息

　　　　c. 訂單信息與訂單編號

　　　　d. 員工編號與員工

　　　　e. 字典的鍵與值

　　　　f. 內(nèi)存地址與存儲在該地址上的值

　　　　...

　　2. 數(shù)字到二進(jìn)制之間的關(guān)系，這個(gè)如同數(shù)學(xué)或物理定律一樣，固定轉(zhuǎn)換方式，寫死的

　　3. 8進(jìn)制 16 進(jìn)制都是建立在2進(jìn)制的基礎(chǔ)上，和10進(jìn)制之間沒有直接關(guān)系，主要為了

　　　可讀性，二進(jìn)制的兩種表示形式

　　　如二進(jìn)制 00000000 一個(gè)存儲單位，八進(jìn)制000 000 000 每 3 個(gè)二進(jìn)制位轉(zhuǎn)

　　　換位10進(jìn)制表示，最小數(shù)為 0 最大數(shù)為 7，所以取值范圍為 0 - 7

　　　十六進(jìn)制 0000 0000 每 4個(gè)二進(jìn)制位轉(zhuǎn)換位10進(jìn)制表示，最小位為0 最大為15，

　　　所有取值范圍為 0 - 15，因?yàn)槌?0機(jī)制表示范圍所以用 abcdef表示 10 11

　　　12 13 14 15

　十六進(jìn)制常用于內(nèi)存地址表示 IPv6地址顏色表 mac地址二進(jìn)制數(shù)據(jù)\x前綴b/B

　 IP地址(32位點(diǎn)分十進(jìn)制) x.x.x.x 每個(gè)x都是8個(gè)bit位表示的十進(jìn)制數(shù)字

　　# 8進(jìn)制 16進(jìn)制是建立在二進(jìn)制的基礎(chǔ)之上

Py進(jìn)制轉(zhuǎn)換函數(shù)

　　10進(jìn)制轉(zhuǎn)其他進(jìn)制

　　　　轉(zhuǎn)2進(jìn)制 bin 前綴0b

　　　　轉(zhuǎn)16進(jìn)制 hex 前綴0x

　　　　轉(zhuǎn)8進(jìn)制 oct 前綴0o

　　　　# 二進(jìn)制八進(jìn)制十六進(jìn)制都是通過帶前綴的字符串形式"0b/o/x..."

# 10 進(jìn)制轉(zhuǎn)其他進(jìn)制
number = 9999
print("10進(jìn)制轉(zhuǎn)其他進(jìn)制".ljust(40, "*"))
# 10 進(jìn)制轉(zhuǎn)2進(jìn)制
b_number = bin(number)
print("二進(jìn)制:", b_number)
# 10進(jìn)制轉(zhuǎn)8進(jìn)制
o_number = oct(number)
print("八進(jìn)制:", o_number)
# 10進(jìn)制轉(zhuǎn)16進(jìn)制
h_number = hex(number)
print("十六進(jìn)制:", h_number)

　　其他進(jìn)制轉(zhuǎn)10進(jìn)制 int(..., base) base指定進(jìn)制

# 10 進(jìn)制轉(zhuǎn)其他進(jìn)制
number = 9999
print("10進(jìn)制轉(zhuǎn)其他進(jìn)制".ljust(40, "*"))
# 10 進(jìn)制轉(zhuǎn)2進(jìn)制
b_number = bin(number)
print("二進(jìn)制:", b_number)
# 10進(jìn)制轉(zhuǎn)8進(jìn)制
o_number = oct(number)
print("八進(jìn)制:", o_number)
# 10進(jìn)制轉(zhuǎn)16進(jìn)制
h_number = hex(number)
print("十六進(jìn)制:", h_number)
 
# 其他進(jìn)制轉(zhuǎn)10進(jìn)制
# 2進(jìn)制轉(zhuǎn)10進(jìn)制
num_b = int(b_number, base=2)
print(num_b)
# 8 進(jìn)制轉(zhuǎn)10進(jìn)制
num_o = int(o_number, base=8)
print(num_o)
# 8 進(jìn)制轉(zhuǎn)16進(jìn)制
num_h = int(h_number, base=16)
print(num_h)

　　字符串轉(zhuǎn)二進(jìn)制字符串

　　　　bytes

　　　　encode

　　　　需要指定字符編碼，結(jié)果前綴為 b/B"..."

# 字符串轉(zhuǎn)二進(jìn)制字符串
song = "你驕傲的飛遠(yuǎn)，我棲息的夏天"
 
byte_song = song.encode(encoding="utf-8")
print(byte_song)
# 等價(jià)于
eq_byte_song = bytes(song, encoding="utf-8")
print(eq_byte_song)
print(byte_song == eq_byte_song)

　　二進(jìn)制轉(zhuǎn)字符串

　　　　decode

　　　　str

　　　　需要指定字符編碼

# 二進(jìn)制轉(zhuǎn)字符串
song = "你驕傲的飛遠(yuǎn)，我棲息的夏天"
# 獲得二進(jìn)制數(shù)據(jù)
byte_song = song.encode(encoding="utf-8")
print(byte_song)
 
# 二進(jìn)制字符串轉(zhuǎn)文本字符串
print("二進(jìn)制數(shù)據(jù)轉(zhuǎn)字符串".rjust(40, "_"))
dec_song = byte_song.decode(encoding="utf-8")
print(dec_song)
# 等價(jià)于'
str_song = str(byte_song, encoding="utf-8")
print(str_song)
print(dec_song == str_song)

　　算術(shù)方法

　　　　10進(jìn)制轉(zhuǎn)2 8 16進(jìn)制，輾轉(zhuǎn)除法取余數(shù)

　　　　其他進(jìn)制轉(zhuǎn)10進(jìn)制是從右往左加上基數(shù)的指定次方然后求和

　　　　# 轉(zhuǎn)換方式像公式定律，固定

二進(jìn)制表示

　　分為有符號和無符號類型，一般是 8 16 32 64 Bit 表示整數(shù)或浮點(diǎn)數(shù)

　　有符號最高位表示符號，就是最左邊的比特位，0表示正1表示負(fù)數(shù) 正負(fù)下標(biāo)位0和1

　　有符號位表示范圍，因?yàn)橐殖蓛砂?，一半表示正?shù)一半表示負(fù)數(shù)，

　　說白了是去除一位表示符號位 -2**(n-1) - 2**n(n-1) -1, n = 8/16/32/64

　　無符號位表示 0到2**n -1

　　# 長度不一樣，分為1/2/4/8字節(jié)

Py字符對應(yīng)ASCII數(shù)字函數(shù)

　　ord()

字符編碼

　　語言文字 ---> 數(shù)字 ---> 0 1二進(jìn)制

　　# 這個(gè)映射關(guān)系表被稱為字符編碼

　　# 字符編碼解決的問題是字符與十進(jìn)制之間映射關(guān)系，人為定義的

　　中國 gb2312 -> GBK 中文2字節(jié)，英文1個(gè)字節(jié)

　　國際 Unicode(2-4個(gè)字節(jié)) -> UTF-8(1-4個(gè)字節(jié))

　　　　1. 支持全球語言字符

　　　　2. 包含全球字符編碼映射

　　　　# 全球各國語言可以轉(zhuǎn)成Unicode，Unicode可以轉(zhuǎn)全球各個(gè)國家語言

　　　　3. 全球軟/硬件都支持Unicode

　　主流 UTF-8

　　　　因?yàn)閁nicode表示一個(gè)字符需要至少2個(gè)字節(jié)，那么原來用ASCII只需要一個(gè)字節(jié)，

　　　　現(xiàn)在使用Unicode編碼則存儲與進(jìn)行網(wǎng)絡(luò)傳輸需要的存儲空間直接翻倍，不可接受

　　　　UTF-8為了解決這個(gè)問題，于是走上了歷史舞臺，那好，網(wǎng)絡(luò)傳輸和存儲使用

　　　　UTF-8，操作系統(tǒng)支持Unicode，那么高效傳輸、存儲和支持全球語言體系成為可能

Python中編碼

　　首先說說Python中編碼到底是何方神圣？

　　我們看存儲代碼的文件和代碼加載到內(nèi)存然后被解釋器處理的文件

　　我們敲的代碼，其實(shí)本質(zhì)上是文本數(shù)據(jù)

　　文本數(shù)據(jù)要通過某一編碼表轉(zhuǎn)換成二進(jìn)制然后存儲到硬盤上

　　存儲在電腦上的二進(jìn)制數(shù)據(jù)也需要編碼表才能轉(zhuǎn)換成文本數(shù)據(jù)

Python中編碼是怎么回事？

　　Py3中默認(rèn)文件編碼為UTF-8, 我們通過編輯器編輯文件的時(shí)候也會有個(gè)默認(rèn)編碼

　　一般默認(rèn)為UTF-8，如果定義的文件中文本數(shù)據(jù)不是以UTF-8編碼，則需要在Py文

　　件的頭行告訴Py解釋器這個(gè)文件是以何種編碼。

　　解釋器讀取的并不是我們看到的編輯器里面的文本數(shù)據(jù)，而是存儲在硬盤上的01
　　一樣的二進(jìn)制數(shù)據(jù)，解釋器嘗試用默認(rèn)UTF-8編碼解碼讀取到硬盤中的二進(jìn)制數(shù)
　　據(jù)，轉(zhuǎn)換成文件數(shù)據(jù)，如果非默認(rèn)utf-8則出現(xiàn)亂碼，解釋器對文本數(shù)據(jù)解析失敗，
　　則需要在Py源文件開頭指定當(dāng)前文件的編碼格式，告訴Py解釋器如何去轉(zhuǎn)換該文件

　　Py解釋器默認(rèn)編碼是Unicode，解釋器會把讀取到的二進(jìn)制數(shù)據(jù)通過字符編碼轉(zhuǎn)
　　換成文件數(shù)據(jù)然后再次轉(zhuǎn)換為Unicode編碼，只要操作系統(tǒng)支持Unicode，解釋器
　　都能正常執(zhí)行并輸出結(jié)果

　　解釋器

　　　　二進(jìn)制數(shù)據(jù) -> 查字符編碼表 -> 文本數(shù)據(jù) -> Unicode編碼的文本數(shù)據(jù)

　　編輯器

　　　　二進(jìn)制數(shù)據(jù) -> 查字符編碼表 -> 對應(yīng)編碼表的文本數(shù)據(jù)

　　# 解釋器和編輯器都是從文件的二進(jìn)制數(shù)據(jù)開始的，通過編碼轉(zhuǎn)換成對應(yīng)的文本

　　# 數(shù)據(jù)，不過解釋器會會在文件數(shù)據(jù)的基礎(chǔ)上解析文本數(shù)據(jù)成底層機(jī)器指令并執(zhí)行

　　需要弄清楚的是Py源文件編碼和Py解釋器默認(rèn)編碼不一致

　　# Py源文件編碼默認(rèn)UTF-8,Py解釋器默認(rèn)編碼為Unicode

那么，產(chǎn)生亂碼的解決問題的思路就很好解決了

　　# 亂碼 - 字符編碼指定錯(cuò)誤，存儲的二進(jìn)制轉(zhuǎn)換成文本文件選擇的字符集錯(cuò)誤

　　1. C/S 架構(gòu)的軟件，檢查 Client 和 Server默認(rèn)編碼是否一致

　　2. Web后端，數(shù)據(jù)庫默認(rèn)編碼、表的編碼和各個(gè)語言連接數(shù)據(jù)庫接口的編碼是否一致