python解決漢字編碼問題:Unicode Decode Error
前言
最近由于項(xiàng)目需要,需要讀取一個(gè)含有中文的txt文檔,完了還要保存文件。文檔之前是由base64編碼,導(dǎo)致所有漢字讀取顯示亂碼。項(xiàng)目組把base64廢棄之后,先后出現(xiàn)兩個(gè)錯(cuò)誤:
ascii codec can't encode characters in position ordinal not in range 128 UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。
如果對(duì)于ascii、unicode和utf-8還不了解的小伙伴,可以看之前的這篇文章關(guān)于字符串和編碼
那么必須對(duì)下面這三個(gè)概念有所了解:
- ascii只能表示數(shù)字、英文字母和一些特殊符號(hào),不能表示漢字
- unicode和utf-8都可以表示漢字,unicode是固定長(zhǎng)度,utf-8是可變長(zhǎng)度
- 內(nèi)存中存儲(chǔ)方式一般為unicode,而磁盤文件存儲(chǔ)方式一般為utf-8,因?yàn)閡tf-8可以節(jié)約存儲(chǔ)空間
那么python的默認(rèn)編碼是什么?
>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> sys.getdefaultencoding()
'utf-8'
python的默認(rèn)編碼是ascii,可以通過sys.setdefaultencoding('utf-8')函數(shù)設(shè)置python的默認(rèn)編碼。
python中可以通過encode和decode的方式改變數(shù)據(jù)的編碼,比如:
>>> u'漢字'
u'\u6c49\u5b57'
>>> u'漢字'.encode('utf-8')
'\xe6\xb1\x89\xe5\xad\x97'
>>> u'漢字'.encode('utf-8').decode('utf-8')
u'\u6c49\u5b57'
我們可以通過這兩個(gè)函數(shù)設(shè)置編碼。
那么,python中的str是什么類型?
>>> import binascii
>>> '漢字'
'\xba\xba\xd7\xd6'
>>> type('漢字')
<type 'str'>
>>> print binascii.b2a_hex('漢字')
babad7d6
>>> print binascii.b2a_hex(u'漢字')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u'漢字'.encode('utf-8'))
e6b189e5ad97
>>> print binascii.b2a_hex(u'漢字'.encode('gbk'))
babad7d6
binascii是將數(shù)據(jù)的二進(jìn)制轉(zhuǎn)換成ascii,上面的解釋是:‘漢字'的類型是str,二進(jìn)制是babad7d6,u‘漢字'是無法轉(zhuǎn)換成ascii,這樣就報(bào)出了開頭的第一個(gè)錯(cuò)誤。解決辦法就是把它.encode(‘utf-8')成str類型。因?yàn)槲颐钚惺莣indows默認(rèn)的GBK編碼,所有u'漢字'.encode(‘gbk')的時(shí)候,輸出結(jié)果和‘漢字'結(jié)果一樣。
總結(jié)一下,python的str實(shí)際上是unicode的一種,python的默認(rèn)編碼是ascii,對(duì)于非ascii轉(zhuǎn)成ascii的時(shí)候都會(huì)報(bào)錯(cuò),牢記下面的規(guī)則:
- unicode => encode(‘合適的編碼') => str
- str => decode(‘合適的編碼') => unicode
還有一種簡(jiǎn)單的方式,就是在文件頭設(shè)置編碼,可以省去很多麻煩:
import sys
reloads(sys)
sys.setdefaultencoding('utf-8')
對(duì)于第二個(gè)問題,是在文件讀取的時(shí)候出的錯(cuò)。utf-8的文件有bom和無bom兩種方式,兩者的差別好像在bom文件比無bom文件多了一個(gè)頭,導(dǎo)致以u(píng)tf-8方式讀文件時(shí)報(bào)錯(cuò),我先前曾嘗試讀文件的時(shí)候先對(duì)有無bom進(jìn)行判斷,跳過bom文件的頭,后來失敗了,真尷尬~~。
還得上google求助大神,具體的操作方法就是使用codecs庫(kù)來讀文件(我猜這個(gè)庫(kù)就是對(duì)文件的頭進(jìn)行檢測(cè))。
import codecs codecs.open(file_name, "r",encoding='utf-8', errors='ignore')
對(duì)于編碼問題,一定要懂得ascii、unicode和utf-8工作原理。
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來一定的幫助,如果有疑問大家可以留言交流。
相關(guān)文章
Python用Pillow(PIL)進(jìn)行簡(jiǎn)單的圖像操作方法
下面小編就為大家?guī)硪黄狿ython用Pillow(PIL)進(jìn)行簡(jiǎn)單的圖像操作方法。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-07-07
使用Python實(shí)現(xiàn)視頻轉(zhuǎn)音頻與音頻轉(zhuǎn)文本
這篇文章主要為大家詳細(xì)介紹了使用Python實(shí)現(xiàn)視頻轉(zhuǎn)音頻與音頻轉(zhuǎn)文本的相關(guān)知識(shí),文中的示例代碼簡(jiǎn)潔易懂,有需要的小伙伴可以參考一下2024-02-02
Python實(shí)現(xiàn)藍(lán)線挑戰(zhàn)特效的示例代碼
在抖音曾經(jīng)火了一陣子的藍(lán)線挑戰(zhàn)特效,其原理很簡(jiǎn)單。本文將試著用opencv-python實(shí)現(xiàn)這個(gè)效果,做了攝像頭版本和視頻處理版本,感興趣的可以學(xué)習(xí)一下2022-10-10
Python使用Selenium模塊模擬瀏覽器抓取斗魚直播間信息示例
這篇文章主要介紹了Python使用Selenium模塊模擬瀏覽器抓取斗魚直播間信息,涉及Python基于Selenium模塊的模擬瀏覽器登陸、解析、抓取信息,以及MongoDB數(shù)據(jù)庫(kù)的連接、寫入等相關(guān)操作技巧,需要的朋友可以參考下2018-07-07
python反反爬蟲技術(shù)限制連續(xù)請(qǐng)求時(shí)間處理
這篇文章主要為大家介紹了python反反爬蟲技術(shù)限制連續(xù)請(qǐng)求時(shí)間處理,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06
Python虛擬環(huán)境Virtualenv使用教程
這篇文章主要介紹了Python虛擬環(huán)境Virtualenv簡(jiǎn)明教程,本文整合了兩篇關(guān)于Virtualenv的使用教程,相信大家有通過本文一定可以學(xué)會(huì)如何使用Virtualenv,需要的朋友可以參考下2015-05-05
Python實(shí)現(xiàn)解析參數(shù)的三種方法詳解
這篇文章主要介紹了python解析參數(shù)的三種方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2022-07-07

