python解決漢字編碼問(wèn)題:Unicode Decode Error
前言
最近由于項(xiàng)目需要,需要讀取一個(gè)含有中文的txt文檔,完了還要保存文件。文檔之前是由base64編碼,導(dǎo)致所有漢字讀取顯示亂碼。項(xiàng)目組把base64廢棄之后,先后出現(xiàn)兩個(gè)錯(cuò)誤:
ascii codec can't encode characters in position ordinal not in range 128 UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。
如果對(duì)于ascii、unicode和utf-8還不了解的小伙伴,可以看之前的這篇文章關(guān)于字符串和編碼
那么必須對(duì)下面這三個(gè)概念有所了解:
- ascii只能表示數(shù)字、英文字母和一些特殊符號(hào),不能表示漢字
- unicode和utf-8都可以表示漢字,unicode是固定長(zhǎng)度,utf-8是可變長(zhǎng)度
- 內(nèi)存中存儲(chǔ)方式一般為unicode,而磁盤(pán)文件存儲(chǔ)方式一般為utf-8,因?yàn)閡tf-8可以節(jié)約存儲(chǔ)空間
那么python的默認(rèn)編碼是什么?
>>> import sys >>> sys.getdefaultencoding() 'ascii' >>> reload(sys) <module 'sys' (built-in)> >>> sys.setdefaultencoding('utf-8') >>> sys.getdefaultencoding() 'utf-8'
python的默認(rèn)編碼是ascii,可以通過(guò)sys.setdefaultencoding('utf-8')
函數(shù)設(shè)置python的默認(rèn)編碼。
python中可以通過(guò)encode和decode的方式改變數(shù)據(jù)的編碼,比如:
>>> u'漢字' u'\u6c49\u5b57' >>> u'漢字'.encode('utf-8') '\xe6\xb1\x89\xe5\xad\x97' >>> u'漢字'.encode('utf-8').decode('utf-8') u'\u6c49\u5b57'
我們可以通過(guò)這兩個(gè)函數(shù)設(shè)置編碼。
那么,python中的str是什么類(lèi)型?
>>> import binascii >>> '漢字' '\xba\xba\xd7\xd6' >>> type('漢字') <type 'str'> >>> print binascii.b2a_hex('漢字') babad7d6 >>> print binascii.b2a_hex(u'漢字') Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128) >>> print binascii.b2a_hex(u'漢字'.encode('utf-8')) e6b189e5ad97 >>> print binascii.b2a_hex(u'漢字'.encode('gbk')) babad7d6
binascii是將數(shù)據(jù)的二進(jìn)制轉(zhuǎn)換成ascii,上面的解釋是:‘漢字'的類(lèi)型是str,二進(jìn)制是babad7d6,u‘漢字'是無(wú)法轉(zhuǎn)換成ascii,這樣就報(bào)出了開(kāi)頭的第一個(gè)錯(cuò)誤。解決辦法就是把它.encode(‘utf-8')成str類(lèi)型。因?yàn)槲颐钚惺莣indows默認(rèn)的GBK編碼,所有u'漢字'.encode(‘gbk')
的時(shí)候,輸出結(jié)果和‘漢字'結(jié)果一樣。
總結(jié)一下,python的str實(shí)際上是unicode的一種,python的默認(rèn)編碼是ascii,對(duì)于非ascii轉(zhuǎn)成ascii的時(shí)候都會(huì)報(bào)錯(cuò),牢記下面的規(guī)則:
- unicode => encode(‘合適的編碼') => str
- str => decode(‘合適的編碼') => unicode
還有一種簡(jiǎn)單的方式,就是在文件頭設(shè)置編碼,可以省去很多麻煩:
import sys reloads(sys) sys.setdefaultencoding('utf-8')
對(duì)于第二個(gè)問(wèn)題,是在文件讀取的時(shí)候出的錯(cuò)。utf-8的文件有bom和無(wú)bom兩種方式,兩者的差別好像在bom文件比無(wú)bom文件多了一個(gè)頭,導(dǎo)致以u(píng)tf-8方式讀文件時(shí)報(bào)錯(cuò),我先前曾嘗試讀文件的時(shí)候先對(duì)有無(wú)bom進(jìn)行判斷,跳過(guò)bom文件的頭,后來(lái)失敗了,真尷尬~~。
還得上google求助大神,具體的操作方法就是使用codecs庫(kù)來(lái)讀文件(我猜這個(gè)庫(kù)就是對(duì)文件的頭進(jìn)行檢測(cè))。
import codecs codecs.open(file_name, "r",encoding='utf-8', errors='ignore')
對(duì)于編碼問(wèn)題,一定要懂得ascii、unicode和utf-8工作原理。
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流。
相關(guān)文章
Python用Pillow(PIL)進(jìn)行簡(jiǎn)單的圖像操作方法
下面小編就為大家?guī)?lái)一篇Python用Pillow(PIL)進(jìn)行簡(jiǎn)單的圖像操作方法。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-07-07使用Python實(shí)現(xiàn)視頻轉(zhuǎn)音頻與音頻轉(zhuǎn)文本
這篇文章主要為大家詳細(xì)介紹了使用Python實(shí)現(xiàn)視頻轉(zhuǎn)音頻與音頻轉(zhuǎn)文本的相關(guān)知識(shí),文中的示例代碼簡(jiǎn)潔易懂,有需要的小伙伴可以參考一下2024-02-02xpath無(wú)法定位tbody標(biāo)簽解決方法示例
這篇文章主要介紹了xpath無(wú)法定位tbody標(biāo)簽解決方法示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-09-09Python實(shí)現(xiàn)藍(lán)線挑戰(zhàn)特效的示例代碼
在抖音曾經(jīng)火了一陣子的藍(lán)線挑戰(zhàn)特效,其原理很簡(jiǎn)單。本文將試著用opencv-python實(shí)現(xiàn)這個(gè)效果,做了攝像頭版本和視頻處理版本,感興趣的可以學(xué)習(xí)一下2022-10-10Python使用Selenium模塊模擬瀏覽器抓取斗魚(yú)直播間信息示例
這篇文章主要介紹了Python使用Selenium模塊模擬瀏覽器抓取斗魚(yú)直播間信息,涉及Python基于Selenium模塊的模擬瀏覽器登陸、解析、抓取信息,以及MongoDB數(shù)據(jù)庫(kù)的連接、寫(xiě)入等相關(guān)操作技巧,需要的朋友可以參考下2018-07-07python反反爬蟲(chóng)技術(shù)限制連續(xù)請(qǐng)求時(shí)間處理
這篇文章主要為大家介紹了python反反爬蟲(chóng)技術(shù)限制連續(xù)請(qǐng)求時(shí)間處理,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06Python虛擬環(huán)境Virtualenv使用教程
這篇文章主要介紹了Python虛擬環(huán)境Virtualenv簡(jiǎn)明教程,本文整合了兩篇關(guān)于Virtualenv的使用教程,相信大家有通過(guò)本文一定可以學(xué)會(huì)如何使用Virtualenv,需要的朋友可以參考下2015-05-05Python實(shí)現(xiàn)解析參數(shù)的三種方法詳解
這篇文章主要介紹了python解析參數(shù)的三種方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2022-07-07