欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python解決漢字編碼問(wèn)題:Unicode Decode Error

 更新時(shí)間:2017年01月19日 11:26:05   作者:漁人  
最近在利用python讀取一個(gè)含有漢字的文檔時(shí)導(dǎo)致出現(xiàn)了亂碼,并報(bào)出了兩個(gè)錯(cuò)誤,無(wú)奈只能上網(wǎng)找尋答案,后通過(guò)網(wǎng)友的幫助解決了這個(gè)問(wèn)題,想著總結(jié)一下,下面這篇文章就主要介紹了python如何解決漢字編碼問(wèn)題,有需要的朋友們可以參考借鑒。

前言

最近由于項(xiàng)目需要,需要讀取一個(gè)含有中文的txt文檔,完了還要保存文件。文檔之前是由base64編碼,導(dǎo)致所有漢字讀取顯示亂碼。項(xiàng)目組把base64廢棄之后,先后出現(xiàn)兩個(gè)錯(cuò)誤:

ascii codec can't encode characters in position ordinal not in range 128
UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。

如果對(duì)于ascii、unicode和utf-8還不了解的小伙伴,可以看之前的這篇文章關(guān)于字符串和編碼

那么必須對(duì)下面這三個(gè)概念有所了解:

  1. ascii只能表示數(shù)字、英文字母和一些特殊符號(hào),不能表示漢字
  2. unicode和utf-8都可以表示漢字,unicode是固定長(zhǎng)度,utf-8是可變長(zhǎng)度
  3. 內(nèi)存中存儲(chǔ)方式一般為unicode,而磁盤(pán)文件存儲(chǔ)方式一般為utf-8,因?yàn)閡tf-8可以節(jié)約存儲(chǔ)空間

那么python的默認(rèn)編碼是什么?

>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> sys.getdefaultencoding()
'utf-8'

python的默認(rèn)編碼是ascii,可以通過(guò)sys.setdefaultencoding('utf-8')函數(shù)設(shè)置python的默認(rèn)編碼。

python中可以通過(guò)encode和decode的方式改變數(shù)據(jù)的編碼,比如:

>>> u'漢字'
u'\u6c49\u5b57'
>>> u'漢字'.encode('utf-8')
'\xe6\xb1\x89\xe5\xad\x97'
>>> u'漢字'.encode('utf-8').decode('utf-8')
u'\u6c49\u5b57'

我們可以通過(guò)這兩個(gè)函數(shù)設(shè)置編碼。

那么,python中的str是什么類(lèi)型?

>>> import binascii
>>> '漢字'
'\xba\xba\xd7\xd6'
>>> type('漢字')
<type 'str'>
>>> print binascii.b2a_hex('漢字')
babad7d6
>>> print binascii.b2a_hex(u'漢字')
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u'漢字'.encode('utf-8'))
e6b189e5ad97
>>> print binascii.b2a_hex(u'漢字'.encode('gbk'))
babad7d6

binascii是將數(shù)據(jù)的二進(jìn)制轉(zhuǎn)換成ascii,上面的解釋是:‘漢字'的類(lèi)型是str,二進(jìn)制是babad7d6,u‘漢字'是無(wú)法轉(zhuǎn)換成ascii,這樣就報(bào)出了開(kāi)頭的第一個(gè)錯(cuò)誤。解決辦法就是把它.encode(‘utf-8')成str類(lèi)型。因?yàn)槲颐钚惺莣indows默認(rèn)的GBK編碼,所有u'漢字'.encode(‘gbk')的時(shí)候,輸出結(jié)果和‘漢字'結(jié)果一樣。

總結(jié)一下,python的str實(shí)際上是unicode的一種,python的默認(rèn)編碼是ascii,對(duì)于非ascii轉(zhuǎn)成ascii的時(shí)候都會(huì)報(bào)錯(cuò),牢記下面的規(guī)則:

  1. unicode => encode(‘合適的編碼') => str
  2. str => decode(‘合適的編碼') => unicode

還有一種簡(jiǎn)單的方式,就是在文件頭設(shè)置編碼,可以省去很多麻煩:

import sys
reloads(sys)
sys.setdefaultencoding('utf-8')

對(duì)于第二個(gè)問(wèn)題,是在文件讀取的時(shí)候出的錯(cuò)。utf-8的文件有bom和無(wú)bom兩種方式,兩者的差別好像在bom文件比無(wú)bom文件多了一個(gè)頭,導(dǎo)致以u(píng)tf-8方式讀文件時(shí)報(bào)錯(cuò),我先前曾嘗試讀文件的時(shí)候先對(duì)有無(wú)bom進(jìn)行判斷,跳過(guò)bom文件的頭,后來(lái)失敗了,真尷尬~~。

還得上google求助大神,具體的操作方法就是使用codecs庫(kù)來(lái)讀文件(我猜這個(gè)庫(kù)就是對(duì)文件的頭進(jìn)行檢測(cè))。

import codecs
codecs.open(file_name, "r",encoding='utf-8', errors='ignore')

對(duì)于編碼問(wèn)題,一定要懂得ascii、unicode和utf-8工作原理。

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流。

相關(guān)文章

  • Python用Pillow(PIL)進(jìn)行簡(jiǎn)單的圖像操作方法

    Python用Pillow(PIL)進(jìn)行簡(jiǎn)單的圖像操作方法

    下面小編就為大家?guī)?lái)一篇Python用Pillow(PIL)進(jìn)行簡(jiǎn)單的圖像操作方法。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2017-07-07
  • 使用Python實(shí)現(xiàn)視頻轉(zhuǎn)音頻與音頻轉(zhuǎn)文本

    使用Python實(shí)現(xiàn)視頻轉(zhuǎn)音頻與音頻轉(zhuǎn)文本

    這篇文章主要為大家詳細(xì)介紹了使用Python實(shí)現(xiàn)視頻轉(zhuǎn)音頻與音頻轉(zhuǎn)文本的相關(guān)知識(shí),文中的示例代碼簡(jiǎn)潔易懂,有需要的小伙伴可以參考一下
    2024-02-02
  • 使用PYTHON創(chuàng)建XML文檔

    使用PYTHON創(chuàng)建XML文檔

    今天想使用python來(lái)創(chuàng)建一個(gè)xml文件。找了下資料,發(fā)現(xiàn)資料不是很多,基本上都是使用python來(lái)解析xml文件的
    2012-03-03
  • xpath無(wú)法定位tbody標(biāo)簽解決方法示例

    xpath無(wú)法定位tbody標(biāo)簽解決方法示例

    這篇文章主要介紹了xpath無(wú)法定位tbody標(biāo)簽解決方法示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-09-09
  • Python實(shí)現(xiàn)藍(lán)線挑戰(zhàn)特效的示例代碼

    Python實(shí)現(xiàn)藍(lán)線挑戰(zhàn)特效的示例代碼

    在抖音曾經(jīng)火了一陣子的藍(lán)線挑戰(zhàn)特效,其原理很簡(jiǎn)單。本文將試著用opencv-python實(shí)現(xiàn)這個(gè)效果,做了攝像頭版本和視頻處理版本,感興趣的可以學(xué)習(xí)一下
    2022-10-10
  • Python使用Selenium模塊模擬瀏覽器抓取斗魚(yú)直播間信息示例

    Python使用Selenium模塊模擬瀏覽器抓取斗魚(yú)直播間信息示例

    這篇文章主要介紹了Python使用Selenium模塊模擬瀏覽器抓取斗魚(yú)直播間信息,涉及Python基于Selenium模塊的模擬瀏覽器登陸、解析、抓取信息,以及MongoDB數(shù)據(jù)庫(kù)的連接、寫(xiě)入等相關(guān)操作技巧,需要的朋友可以參考下
    2018-07-07
  • Python正則表達(dá)式以及常用匹配實(shí)例

    Python正則表達(dá)式以及常用匹配實(shí)例

    在處理字符串時(shí),經(jīng)常會(huì)遇到查找符合某些復(fù)雜規(guī)則字符串的需求,正則表達(dá)式就是用于描述這些規(guī)則的工具,下面這篇文章主要給大家介紹了關(guān)于Python正則表達(dá)式以及常用匹配的相關(guān)資料,需要的朋友可以參考下
    2022-07-07
  • python反反爬蟲(chóng)技術(shù)限制連續(xù)請(qǐng)求時(shí)間處理

    python反反爬蟲(chóng)技術(shù)限制連續(xù)請(qǐng)求時(shí)間處理

    這篇文章主要為大家介紹了python反反爬蟲(chóng)技術(shù)限制連續(xù)請(qǐng)求時(shí)間處理,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-06-06
  • Python虛擬環(huán)境Virtualenv使用教程

    Python虛擬環(huán)境Virtualenv使用教程

    這篇文章主要介紹了Python虛擬環(huán)境Virtualenv簡(jiǎn)明教程,本文整合了兩篇關(guān)于Virtualenv的使用教程,相信大家有通過(guò)本文一定可以學(xué)會(huì)如何使用Virtualenv,需要的朋友可以參考下
    2015-05-05
  • Python實(shí)現(xiàn)解析參數(shù)的三種方法詳解

    Python實(shí)現(xiàn)解析參數(shù)的三種方法詳解

    這篇文章主要介紹了python解析參數(shù)的三種方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2022-07-07

最新評(píng)論