快捷導(dǎo)航

Python?UnicodedecodeError編碼問(wèn)題解決方法匯總

更新時(shí)間：2022年08月18日 16:46:17 作者：tomorrownan

本文主要介紹了Python?UnicodedecodeError編碼問(wèn)題解決方法匯總，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

今天真的被編碼問(wèn)題一直困擾著，午休都沒(méi)進(jìn)行。也真的見(jiàn)識(shí)到了各種編碼。例如：gbk，unicode、utf-8、ansi、gb2312等。
如果腳本程序中編碼與文件編碼不一致，就會(huì)報(bào)出UnicodedecodeError的錯(cuò)誤。

1.情景一

讀文件時(shí)常需要將內(nèi)容轉(zhuǎn)為utf8，文字可正常顯示，但是如果原文件內(nèi)容編碼格式不是utf8就會(huì)報(bào)錯(cuò)UnicodedecodeError。如下：

問(wèn)題：

try:
     fileObj = open(os.path.join(path,filename),'r')
       textLines = fileObj.readlines()
       fileObj.close()
   except IOError as err:
       print('打開(kāi)文件%s失敗:%s'%(filename,err))

解決方法：

代碼改為：

try:
     fileObj = open(os.path.join(path,filename),'r'，encoding='utf-8')
       textLines = fileObj.readlines()
       fileObj.close()
   except IOError as err:
       print('打開(kāi)文件%s失敗:%s'%(filename,err))

此方法可以解決一部分編碼問(wèn)題，但是卻不是一勞永逸的，在下一批文件因其他功能擴(kuò)展需要讀寫(xiě)時(shí)，上面程序又報(bào)出UnicodedecodeError:gbk codec cant decode…

2.情景二

針對(duì)上面的編碼問(wèn)題沒(méi)有得到很好的解決，決定專(zhuān)門(mén)寫(xiě)一個(gè)批量將文件夾下面的文件編碼格式改為utf-8的腳本，網(wǎng)上查資料得知python的第三方模塊chardet，但是要安裝這個(gè)擴(kuò)展庫(kù)。
chardet是一個(gè)非常好的編碼識(shí)別模塊，

1.chardet庫(kù)的安裝
在外網(wǎng)機(jī)上安裝這個(gè)模塊是特表簡(jiǎn)單的，直接執(zhí)行pip chardet install命令即可，但是我的工作環(huán)境是內(nèi)網(wǎng)，因?yàn)檫@個(gè)項(xiàng)目要處理的文件量多且大，所以也在Windows系統(tǒng)（編碼問(wèn)題比Linux多），因此安裝chardet模塊也花費(fèi)了好大一會(huì)時(shí)間。

a.在外網(wǎng)下載好安裝包c(diǎn)hardet-3.0.4.tar.gz。
b.解壓縮放在python安裝路徑\Python\Lib\site-packages下，命令切換到當(dāng)前目錄，執(zhí)行python setup.py install。
c.安裝完畢后import chardet仍然未成功

上面的安裝步驟是沒(méi)有問(wèn)題的，我想應(yīng)該是因?yàn)槟硞€(gè)依賴(lài)沒(méi)有安裝吧，因此突然想到一個(gè)比較笨的方法：就是在外網(wǎng)機(jī)上執(zhí)行pip chardet install先安裝好，然后到安裝目錄下把關(guān)于chardet的安裝目錄chardet和chardet-3.0.4.dist-info拷貝到內(nèi)網(wǎng)機(jī)\Python\Lib\site-packages下，再import chardet時(shí)竟然成功了。。。。

編寫(xiě)文件編碼格式轉(zhuǎn)換腳本

#!/usr/bin/python
# _*_ coding:utf-8 _*_
#更改文件編碼，文件統(tǒng)一改為utf-8無(wú)BOM格式
import os
from chardet import detect

#文件夾目錄
g_filedir = r'C:\Users\Desktop\nmg\SS'

def runcoding(path):
    for filename in os.listdir(path):
        if filename.endswith('.txt'):
            with open(os.path.join(path,filename),'rb+') as fileObj:
                fileContent = fileObj.read()
                #判斷編碼格式
                encodingtype = detect(fileContent)['encoding']
               
                print(encodingtype)
                #格式轉(zhuǎn)換
                fileContent = fileContent.decode(encodingtype).encode('utf8')
                #寫(xiě)回文件
                fileObj.seek(0)
                fileObj.write(fileContent)

if __name__=="__main__":
    runcoding(g_filedir)

在處理字符串時(shí)，常常會(huì)遇到不知道字符串是何種編碼，如果不知道字符串的編碼就不能將字符串轉(zhuǎn)換成需要的編碼。上面的chardet模塊就能很好的解決這個(gè)問(wèn)題。

此時(shí)當(dāng)前文件夾下的文件順利的進(jìn)行了讀寫(xiě)，再次readlines時(shí)沒(méi)有報(bào)UnicodedecodeError問(wèn)題?？梢詸z測(cè)到gbk、Unicode、utf8、utf16、utf8（big）等編碼，也不用再一個(gè)編碼一個(gè)編碼的去轉(zhuǎn)換，一個(gè)文件一個(gè)文件的轉(zhuǎn)換。以為編碼問(wèn)題終于一次性解決了。

但是。。。到另一個(gè)省份的一批文件要進(jìn)行批量操作時(shí)，進(jìn)行到第49個(gè)文件就終止了，又報(bào)出UnicodedecodeError：‘utf8’ codec cant decode問(wèn)題。。。。用上面腳本對(duì)該省份文件夾下文件進(jìn)行格式轉(zhuǎn)換時(shí)報(bào)出錯(cuò)誤：TypeError:decode() argument 1 must be str ,not None。

3.情景三

針對(duì)情景2的問(wèn)題，仍要繼續(xù)排查編碼的問(wèn)題，根據(jù)運(yùn)行的情景二的腳本時(shí)報(bào)出的錯(cuò)誤在腳本中添加代碼，打印出返回None的文件名。

修正代碼

#!/usr/bin/python
# _*_ coding:utf-8 _*_
#更改文件編碼，文件統(tǒng)一改為utf-8無(wú)BOM格式
import os
from chardet import detect

#文件夾目錄
g_filedir = r'C:\Users\Desktop\nmg\SS'

def runcoding(path):
    for filename in os.listdir(path):
        if filename.endswith('.txt'):
            with open(os.path.join(path,filename),'rb+') as fileObj:
                fileContent = fileObj.read()
                #判斷編碼格式
                encodingtype = detect(fileContent)['encoding']
                #ansi編碼檢測(cè)結(jié)果為none
                if encodingtype==None:
                    print(filename)
                    continue
                #print(encodingtype)
                #格式轉(zhuǎn)換
                fileContent = fileContent.decode(encodingtype).encode('utf8')
                #寫(xiě)回文件
                fileObj.seek(0)
                fileObj.write(fileContent)

if __name__=="__main__":
    runcoding(g_filedir)

然后定位到那個(gè)文件，記事本打開(kāi)再另存為查看編碼方式為ANSI，或者使用notpad++查看編碼類(lèi)型。

記事本默認(rèn)是以ANSI編碼保存文本文檔的，而正是這種編碼存在的bug招致了上述怪現(xiàn)象。假如保存時(shí)選擇Unicode、Unicode (Big Endian)、UTF-8編碼，就正常了。此外，假如以ANSI編碼保存含有某些特別符號(hào)的文本文檔，再次打開(kāi)后符號(hào)也會(huì)變成英文問(wèn)號(hào)。

這里可以得知，文件以ansi編碼時(shí)decode（）函數(shù)返回的事None。

4. chardet模塊detect()函數(shù)

chardet模塊中的chardet.detect()函數(shù)可以檢測(cè)編碼。返回結(jié)果如下：

data = '我最美'.encode('gbk')
chardet.detect(data)
 
Out[103]: {'confidence': 0.73, 'encoding': 'ISO-8859-1', 'language': ''}

輸出結(jié)果confidence為概率。

encoding為字符串的編碼方式。

編碼問(wèn)題最困擾人，好在今天順利解決了，各個(gè)省份的數(shù)據(jù)也都按照格式要求修改完畢，已經(jīng)上報(bào)到各省份，晚上就花點(diǎn)時(shí)間整理以下嘍。

到此這篇關(guān)于Python UnicodedecodeError編碼問(wèn)題解決方法匯總的文章就介紹到這了,更多相關(guān)Python UnicodedecodeError編碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: