快捷導(dǎo)航

python3編碼問題匯總

更新時(shí)間：2016年09月06日 08:56:45 投稿：hebedich

本文給通過一個(gè)具體的編碼問題的解決辦法，給大家詳細(xì)分享了python中的編碼問題的來龍去脈，非常的細(xì)致全面，有需要的小伙伴可以參考下

這兩天寫了個(gè)監(jiān)測網(wǎng)頁的爬蟲，作用是跟蹤一個(gè)網(wǎng)頁的變化，但運(yùn)行了一晚出現(xiàn)了一個(gè)問題。。。。希望大家不吝賜教！
我用的是python3，錯(cuò)誤在對(duì)html response的decode時(shí)拋出，代碼原樣為：

response = urllib.urlopen(dsturl)
content = response.read().decode('utf-8')

拋出錯(cuò)誤為

 File "./unxingCrawler_p3.py", line 50, in getNewPhones
  content = response.read().decode()
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb2 in position 24137: invalid start byte

之前運(yùn)行都沒問題，經(jīng)過一晚上就出現(xiàn)了。。。。最不明白的是在它聲明為utf-8編碼的網(wǎng)頁中為什么會(huì)出現(xiàn)utf-8無法解析的字符？

后來經(jīng)過熱心網(wǎng)友的提醒，才發(fā)現(xiàn)需要使用decode('utf-8', 'ignore')

為了徹底鬧明白python的編碼問題，特分享下文，希望對(duì)大家熟悉python的編碼問題帶來些幫助

1.從字節(jié)說起：

一個(gè)字節(jié)包括八個(gè)比特位，每個(gè)比特位表示0或1，一個(gè)字節(jié)即可表示從00000000到11111111共2^8=256個(gè)數(shù)字。一個(gè)ASCII編碼使用一個(gè)字節(jié)（除去字節(jié)的最高位作為作奇偶校驗(yàn)位），ASCII編碼實(shí)際使用一個(gè)字節(jié)中的7個(gè)比特位來表示字符，共可表示2^7=128個(gè)字符。比如ASCII編碼中的01000001（即十進(jìn)制的65）表示字符'A'，01000001加上32之后的01100001（即十進(jìn)制的97）表示字符'a'。現(xiàn)在打開Python，調(diào)用chr和ord函數(shù)，我們可以看到Python為我們對(duì)ASCII編碼進(jìn)行了轉(zhuǎn)換。如圖

第一個(gè)00000000表示空字符，因此ASCII編碼實(shí)際上只包括了字母、標(biāo)點(diǎn)符號(hào)、特殊符號(hào)等共127個(gè)字符。因?yàn)锳SCII是在美國出生的，對(duì)于由字母組成單詞進(jìn)而用單詞表達(dá)的英文來說也是夠了。但是中國人、日本人、韓國人等其他語言的人不服了。中文是一個(gè)字一個(gè)字，ASCII編碼用上了渾身解數(shù)256個(gè)字符都不夠用。

因此后來出現(xiàn)了Unicode編碼。Unicode編碼通常由兩個(gè)字節(jié)組成，共表示256*256個(gè)字符，即所謂的UCS-2。某些偏僻字還會(huì)用到四個(gè)字節(jié)，即所謂的UCS-4。也就是說Unicode標(biāo)準(zhǔn)也還在發(fā)展。但UCS-4出現(xiàn)的比較少，我們先記?。?最原始的ASCII編碼使用一個(gè)字節(jié)編碼，但由于語言差異字符眾多，人們用上了兩個(gè)字節(jié)，出現(xiàn)了統(tǒng)一的、囊括多國語言的Unicode編碼。

在Unicode中，原本ASCII中的127個(gè)字符只需在前面補(bǔ)一個(gè)全零的字節(jié)即可，比如前文談到的字符‘a(chǎn)'：01100001，在Unicode中變成了00000000 01100001。不久，美國人不開心了，吃上了世界民族之林的大鍋飯，原本只需一個(gè)字節(jié)就能傳輸?shù)挠⑽默F(xiàn)在變成兩個(gè)字節(jié)，非常浪費(fèi)存儲(chǔ)空間和傳輸速度。

人們再發(fā)揮聰明才智，于是出現(xiàn)了UTF-8編碼。因?yàn)獒槍?duì)的是空間浪費(fèi)問題，因此這種 UTF-8編碼是可變長短的 ，從英文字母的一個(gè)字節(jié)，到中文的通常的三個(gè)字節(jié)，再到某些生僻字的六個(gè)字節(jié)。解決了空間問題，UTF-8編碼還有一個(gè)神奇的附加功能，那就是兼容了老大哥的ASCII編碼。一些老古董軟件現(xiàn)在在UTF-8編碼中可以繼續(xù)工作。

注意除了英文字母相同，漢字在Unicode編碼和UTF-8編碼中通常是不同的。比如漢字的‘中'字在Unicode中是01001110 00101101，而在UTF-8編碼中是11100100 10111000 10101101。

我們祖國母親自然也有自己的一套標(biāo)準(zhǔn)。那就是GB2312和GBK。當(dāng)然現(xiàn)在挺少看到。通常都是直接使用UTF-8。

2.Python3中的默認(rèn)編碼

Python3中默認(rèn)是UTF-8，我們通過以下代碼：

import sys

sys.getdefaultencoding()

可查看Python3的默認(rèn)編碼。

3.Python3中的encode和decode

Python3中字符編碼經(jīng)常會(huì)使用到decode和encode函數(shù)。特別是在抓取網(wǎng)頁中，這兩個(gè)函數(shù)用的熟練非常有好處。encode的作用，使我們看到的直觀的字符轉(zhuǎn)換成計(jì)算機(jī)內(nèi)的字節(jié)形式。decode剛好相反，把字節(jié)形式的字符轉(zhuǎn)換成我們看的懂的、直觀的、“人模人樣”的形式。

\x表示后面是十六進(jìn)制， \xe4\xb8\xad即是二進(jìn)制的 11100100 10111000 10101101。也就是說漢字‘中'encode成字節(jié)形式，是 11100100 10111000 10101101。同理，我們拿 11100100 10111000 10101101也就是 \xe4\xb8\xad來decode回來，就是漢字‘中'。完整的應(yīng)該是 b'\xe4\xb8\xad'，在Python3中，以字節(jié)形式表示的字符串則必須加上前綴b，也就是寫成上文的b'xxxx'形式。

前文說的Python3的默認(rèn)編碼是UTF-8，所以我們可以看到，Python處理這些字符的時(shí)候是以UTF-8來處理的。因此從上圖可以看到，就算我們通過encode('utf-8')特意把字符encode為UTF-8編碼，出來的結(jié)果還是相同：b'\xe4\xb8\xad'。

明白了這一點(diǎn)，同時(shí)我們知道UTF-8兼容ASCII，我們可以猜想大學(xué)時(shí)經(jīng)常背誦的‘A'對(duì)應(yīng)ASCII中的65，在這里是不是也能正確的decode出來呢。十進(jìn)制的65轉(zhuǎn)換成十六進(jìn)制是41，我們嘗試下：

b'\x41'.decode()

結(jié)果如下。果然是字符‘A'

4.Python3中的編碼轉(zhuǎn)換

據(jù)說字符在計(jì)算機(jī)的內(nèi)存中統(tǒng)一是以Unicode編碼的。只有在字符要被寫進(jìn)文件、存進(jìn)硬盤或者從服務(wù)器發(fā)送至客戶端（例如網(wǎng)頁前端的代碼）時(shí)會(huì)變成utf-8。但其實(shí)我比較關(guān)心怎么把這些字符以Unicode的字節(jié)形式表現(xiàn)出來，露出它在內(nèi)存中的廬山正面目的。這里有個(gè)照妖鏡：

xxxx.encode/decode('unicode-escape')

b'\\u4e2d'還是b'\u4e2d，一個(gè)斜杠貌似沒影響。同時(shí)可以發(fā)現(xiàn)在shell窗口中，直接輸 '\u4e2d'和輸入b '\u4e2d'.decode('unicode-escape')是相同的，都會(huì)打印出漢字‘中'，反而是 '\u4e2d'.decode('unicode-escape')會(huì)報(bào)錯(cuò)。說明說明Python3不僅支持Unicode，而且一個(gè)‘\uxxxx'格式的 Unicode字符可被辨識(shí)且被等價(jià)于str類型。

如果我們知道一個(gè)Unicode字節(jié)碼，怎么變成UTF-8的字節(jié)碼呢。懂了以上這些，現(xiàn)在我們就有思路了，先decode，再encode。代碼如下：

xxx.decode('unicode-escape').encode()

最后的擴(kuò)展

還記得剛剛那個(gè)ord嗎。時(shí)代變遷，老大哥ASCII被人合并，但ord還是有用武之地。試試ord('中')，輸出結(jié)果是20013。20013是什么呢，我們再試試hex(ord('中'))，輸出結(jié)果是'0x4e2d'，也就是20013是我們在上文見面了無數(shù)次的x4e2d的十進(jìn)制值。這里說下hex，是用來轉(zhuǎn)換成十六進(jìn)制的函數(shù)，學(xué)過單片機(jī)的人對(duì)hex肯定不會(huì)陌生。

最后的擴(kuò)展，在網(wǎng)上看到的他人的問題。我們寫下類似于'\u4e2d'的字符，Python3知道我們想表達(dá)什么。但是讓Python讀取某個(gè)文件的時(shí)候出現(xiàn)了'\u4e2d'，是不是計(jì)算機(jī)就不認(rèn)識(shí)它了呢？后來下文有人給出了答案。如下：

import codecs

file = codecs.open( "a.txt", "r", "unicode-escape" )

u = file.read()

print(u)

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

python3編碼問題匯總

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具