快捷導(dǎo)航

python解決漢字編碼問(wèn)題：Unicode Decode Error

更新時(shí)間：2017年01月19日 11:26:05 作者：漁人

最近在利用python讀取一個(gè)含有漢字的文檔時(shí)導(dǎo)致出現(xiàn)了亂碼，并報(bào)出了兩個(gè)錯(cuò)誤，無(wú)奈只能上網(wǎng)找尋答案，后通過(guò)網(wǎng)友的幫助解決了這個(gè)問(wèn)題，想著總結(jié)一下，下面這篇文章就主要介紹了python如何解決漢字編碼問(wèn)題，有需要的朋友們可以參考借鑒。

前言

最近由于項(xiàng)目需要，需要讀取一個(gè)含有中文的txt文檔，完了還要保存文件。文檔之前是由base64編碼，導(dǎo)致所有漢字讀取顯示亂碼。項(xiàng)目組把base64廢棄之后，先后出現(xiàn)兩個(gè)錯(cuò)誤：

ascii codec can't encode characters in position ordinal not in range 128
UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。

如果對(duì)于ascii、unicode和utf-8還不了解的小伙伴，可以看之前的這篇文章關(guān)于字符串和編碼

那么必須對(duì)下面這三個(gè)概念有所了解：

ascii只能表示數(shù)字、英文字母和一些特殊符號(hào)，不能表示漢字
unicode和utf-8都可以表示漢字，unicode是固定長(zhǎng)度，utf-8是可變長(zhǎng)度
內(nèi)存中存儲(chǔ)方式一般為unicode，而磁盤文件存儲(chǔ)方式一般為utf-8，因?yàn)閡tf-8可以節(jié)約存儲(chǔ)空間

那么python的默認(rèn)編碼是什么？

>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> sys.getdefaultencoding()
'utf-8'

python的默認(rèn)編碼是ascii，可以通過(guò)sys.setdefaultencoding('utf-8')函數(shù)設(shè)置python的默認(rèn)編碼。

python中可以通過(guò)encode和decode的方式改變數(shù)據(jù)的編碼，比如：

>>> u'漢字'
u'\u6c49\u5b57'
>>> u'漢字'.encode('utf-8')
'\xe6\xb1\x89\xe5\xad\x97'
>>> u'漢字'.encode('utf-8').decode('utf-8')
u'\u6c49\u5b57'

我們可以通過(guò)這兩個(gè)函數(shù)設(shè)置編碼。

那么，python中的str是什么類型？

>>> import binascii
>>> '漢字'
'\xba\xba\xd7\xd6'
>>> type('漢字')
<type 'str'>
>>> print binascii.b2a_hex('漢字')
babad7d6
>>> print binascii.b2a_hex(u'漢字')
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u'漢字'.encode('utf-8'))
e6b189e5ad97
>>> print binascii.b2a_hex(u'漢字'.encode('gbk'))
babad7d6

binascii是將數(shù)據(jù)的二進(jìn)制轉(zhuǎn)換成ascii，上面的解釋是：‘漢字'的類型是str，二進(jìn)制是babad7d6，u‘漢字'是無(wú)法轉(zhuǎn)換成ascii，這樣就報(bào)出了開頭的第一個(gè)錯(cuò)誤。解決辦法就是把它.encode(‘utf-8')成str類型。因?yàn)槲颐钚惺莣indows默認(rèn)的GBK編碼，所有u'漢字'.encode(‘gbk')的時(shí)候，輸出結(jié)果和‘漢字'結(jié)果一樣。

總結(jié)一下，python的str實(shí)際上是unicode的一種，python的默認(rèn)編碼是ascii，對(duì)于非ascii轉(zhuǎn)成ascii的時(shí)候都會(huì)報(bào)錯(cuò)，牢記下面的規(guī)則：

unicode => encode(‘合適的編碼') => str
str => decode(‘合適的編碼') => unicode

還有一種簡(jiǎn)單的方式，就是在文件頭設(shè)置編碼，可以省去很多麻煩：

import sys
reloads(sys)
sys.setdefaultencoding('utf-8')

對(duì)于第二個(gè)問(wèn)題，是在文件讀取的時(shí)候出的錯(cuò)。utf-8的文件有bom和無(wú)bom兩種方式，兩者的差別好像在bom文件比無(wú)bom文件多了一個(gè)頭，導(dǎo)致以u(píng)tf-8方式讀文件時(shí)報(bào)錯(cuò)，我先前曾嘗試讀文件的時(shí)候先對(duì)有無(wú)bom進(jìn)行判斷，跳過(guò)bom文件的頭，后來(lái)失敗了，真尷尬～～。

還得上google求助大神，具體的操作方法就是使用codecs庫(kù)來(lái)讀文件（我猜這個(gè)庫(kù)就是對(duì)文件的頭進(jìn)行檢測(cè)）。

import codecs
codecs.open(file_name, "r",encoding='utf-8', errors='ignore')

對(duì)于編碼問(wèn)題，一定要懂得ascii、unicode和utf-8工作原理。

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助，如果有疑問(wèn)大家可以留言交流。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python解決漢字編碼問(wèn)題：Unicode Decode Error

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具