欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python?UnicodedecodeError編碼問題解決方法匯總

 更新時間:2022年08月18日 16:46:17   作者:tomorrownan  
本文主要介紹了Python?UnicodedecodeError編碼問題解決方法匯總,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

今天真的被編碼問題一直困擾著,午休都沒進(jìn)行。也真的見識到了各種編碼。例如:gbk,unicode、utf-8、ansi、gb2312等。
如果腳本程序中編碼與文件編碼不一致,就會報出UnicodedecodeError的錯誤。

1.情景一

讀文件時常需要將內(nèi)容轉(zhuǎn)為utf8,文字可正常顯示,但是如果原文件內(nèi)容編碼格式不是utf8就會報錯UnicodedecodeError。如下:

問題:

try:
     fileObj = open(os.path.join(path,filename),'r')
       textLines = fileObj.readlines()
       fileObj.close()
   except IOError as err:
       print('打開文件%s失敗:%s'%(filename,err))

解決方法:

代碼改為:

try:
     fileObj = open(os.path.join(path,filename),'r',encoding='utf-8')
       textLines = fileObj.readlines()
       fileObj.close()
   except IOError as err:
       print('打開文件%s失敗:%s'%(filename,err))

此方法可以解決一部分編碼問題,但是卻不是一勞永逸的,在下一批文件因其他功能擴(kuò)展需要讀寫時,上面程序又報出UnicodedecodeError:gbk codec cant decode…

2.情景二

針對上面的編碼問題沒有得到很好的解決,決定專門寫一個批量將文件夾下面的文件編碼格式改為utf-8的腳本,網(wǎng)上查資料得知python的第三方模塊chardet,但是要安裝這個擴(kuò)展庫。
chardet是一個非常好的編碼識別模塊,

1.chardet庫的安裝
在外網(wǎng)機(jī)上安裝這個模塊是特表簡單的,直接執(zhí)行pip chardet install命令即可,但是我的工作環(huán)境是內(nèi)網(wǎng),因為這個項目要處理的文件量多且大,所以也在Windows系統(tǒng)(編碼問題比Linux多),因此安裝chardet模塊也花費了好大一會時間。

a.在外網(wǎng)下載好安裝包chardet-3.0.4.tar.gz。
b.解壓縮放在python安裝路徑\Python\Lib\site-packages下,命令切換到當(dāng)前目錄,執(zhí)行python setup.py install。
c.安裝完畢后import chardet仍然未成功

上面的安裝步驟是沒有問題的,我想應(yīng)該是因為某個依賴沒有安裝吧,因此突然想到一個比較笨的方法:就是在外網(wǎng)機(jī)上執(zhí)行pip chardet install先安裝好,然后到安裝目錄下把關(guān)于chardet的安裝目錄chardet和chardet-3.0.4.dist-info拷貝到內(nèi)網(wǎng)機(jī)\Python\Lib\site-packages下,再import chardet時竟然成功了。。。。

編寫文件編碼格式轉(zhuǎn)換腳本

#!/usr/bin/python
# _*_ coding:utf-8 _*_
#更改文件編碼,文件統(tǒng)一改為utf-8無BOM格式
import os
from chardet import detect

#文件夾目錄
g_filedir = r'C:\Users\Desktop\nmg\SS'

def runcoding(path):
    for filename in os.listdir(path):
        if filename.endswith('.txt'):
            with open(os.path.join(path,filename),'rb+') as fileObj:
                fileContent = fileObj.read()
                #判斷編碼格式
                encodingtype = detect(fileContent)['encoding']
               
                print(encodingtype)
                #格式轉(zhuǎn)換
                fileContent = fileContent.decode(encodingtype).encode('utf8')
                #寫回文件
                fileObj.seek(0)
                fileObj.write(fileContent)

if __name__=="__main__":
    runcoding(g_filedir)

在處理字符串時,常常會遇到不知道字符串是何種編碼,如果不知道字符串的編碼就不能將字符串轉(zhuǎn)換成需要的編碼。上面的chardet模塊就能很好的解決這個問題。

此時當(dāng)前文件夾下的文件順利的進(jìn)行了讀寫,再次readlines時沒有報UnicodedecodeError問題??梢詸z測到gbk、Unicode、utf8、utf16、utf8(big)等編碼,也不用再一個編碼一個編碼的去轉(zhuǎn)換,一個文件一個文件的轉(zhuǎn)換。以為編碼問題終于一次性解決了。

但是。。。到另一個省份的一批文件要進(jìn)行批量操作時,進(jìn)行到第49個文件就終止了,又報出UnicodedecodeError:‘utf8’ codec cant decode問題。。。。用上面腳本對該省份文件夾下文件進(jìn)行格式轉(zhuǎn)換時報出錯誤:TypeError:decode() argument 1 must be str ,not None。

3.情景三

針對情景2的問題,仍要繼續(xù)排查編碼的問題,根據(jù)運(yùn)行的情景二的腳本時報出的錯誤在腳本中添加代碼,打印出返回None的文件名。

修正代碼

#!/usr/bin/python
# _*_ coding:utf-8 _*_
#更改文件編碼,文件統(tǒng)一改為utf-8無BOM格式
import os
from chardet import detect

#文件夾目錄
g_filedir = r'C:\Users\Desktop\nmg\SS'

def runcoding(path):
    for filename in os.listdir(path):
        if filename.endswith('.txt'):
            with open(os.path.join(path,filename),'rb+') as fileObj:
                fileContent = fileObj.read()
                #判斷編碼格式
                encodingtype = detect(fileContent)['encoding']
                #ansi編碼檢測結(jié)果為none
                if encodingtype==None:
                    print(filename)
                    continue
                #print(encodingtype)
                #格式轉(zhuǎn)換
                fileContent = fileContent.decode(encodingtype).encode('utf8')
                #寫回文件
                fileObj.seek(0)
                fileObj.write(fileContent)

if __name__=="__main__":
    runcoding(g_filedir)

然后定位到那個文件,記事本打開再另存為查看編碼方式為ANSI,或者使用notpad++查看編碼類型。

記事本默認(rèn)是以ANSI編碼保存文本文檔的,而正是這種編碼存在的bug招致了上述怪現(xiàn)象。假如保存時選擇Unicode、Unicode (Big Endian)、UTF-8編碼,就正常了。此外,假如以ANSI編碼保存含有某些特別符號的文本文檔,再次打開后符號也會變成英文問號。

這里可以得知,文件以ansi編碼時decode()函數(shù)返回的事None。

4. chardet模塊detect()函數(shù)

chardet模塊中的chardet.detect()函數(shù)可以檢測編碼。返回結(jié)果如下:

data = '我最美'.encode('gbk')
chardet.detect(data)
 
Out[103]: {'confidence': 0.73, 'encoding': 'ISO-8859-1', 'language': ''}

輸出結(jié)果confidence為概率。

encoding為字符串的編碼方式。

編碼問題最困擾人,好在今天順利解決了,各個省份的數(shù)據(jù)也都按照格式要求修改完畢,已經(jīng)上報到各省份,晚上就花點時間整理以下嘍。

到此這篇關(guān)于Python UnicodedecodeError編碼問題解決方法匯總的文章就介紹到這了,更多相關(guān)Python UnicodedecodeError編碼內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 以一個投票程序的實例來講解Python的Django框架使用

    以一個投票程序的實例來講解Python的Django框架使用

    這篇文章主要介紹了以一個投票程序的實例來講解Python的Django框架使用,Django是Python世界中人氣最高的MVC框架,需要的朋友可以參考下
    2016-02-02
  • python中28種極坐標(biāo)繪圖函數(shù)總結(jié)

    python中28種極坐標(biāo)繪圖函數(shù)總結(jié)

    這篇文章主要為大家詳細(xì)介紹了python中28種極坐標(biāo)繪圖函數(shù)的用法,文中的示例代碼講解詳細(xì),具有一定的學(xué)習(xí)價值,感興趣的小伙伴可以跟隨小編一起了解一下
    2023-09-09
  • pandas之分組groupby()的使用整理與總結(jié)

    pandas之分組groupby()的使用整理與總結(jié)

    這篇文章主要介紹了pandas之分組groupby()的使用整理與總結(jié),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-06-06
  • pip matplotlib報錯equired packages can not be built解決

    pip matplotlib報錯equired packages can not be built解決

    這篇文章主要介紹了pip matplotlib報錯equired packages can not be built解決,具有一定借鑒價值,需要的朋友可以參考下
    2018-01-01
  • 介紹Python的Urllib庫的一些高級用法

    介紹Python的Urllib庫的一些高級用法

    這篇文章主要介紹了Python的Urllib庫的一些高級用法,是用Python編寫爬蟲的一些基礎(chǔ)知識,需要的朋友可以參考下
    2015-04-04
  • Python中的異常處理簡明介紹

    Python中的異常處理簡明介紹

    這篇文章主要介紹了Python中的異常處理簡明介紹,本文講解了try-except檢測異常、上下文管理器(with…as…語句)、raise引發(fā)異常、斷言等內(nèi)容,需要的朋友可以參考下
    2015-04-04
  • Python網(wǎng)絡(luò)編程中urllib2模塊的用法總結(jié)

    Python網(wǎng)絡(luò)編程中urllib2模塊的用法總結(jié)

    使用urllib2模塊進(jìn)行基于url的HTTP請求等操作大家也許都比較熟悉,這里我們再深入來了解一下urllib2針對HTTP的異常處理相關(guān)功能,一起來看一下Python網(wǎng)絡(luò)編程中urllib2模塊的用法總結(jié):
    2016-07-07
  • 利用Python實現(xiàn)模擬登錄知乎

    利用Python實現(xiàn)模擬登錄知乎

    這篇文章主要為大家介紹了如何利用Python實現(xiàn)模擬登陸知乎功能,文中的示例代碼講解詳細(xì),對我們學(xué)習(xí)有一定幫助,需要的可以參考一下
    2022-05-05
  • python scrapy框架中Request對象和Response對象的介紹

    python scrapy框架中Request對象和Response對象的介紹

    本文介紹了python基礎(chǔ)之scrapy框架中Request對象和Response對象的介紹,Request對象主要是用來請求數(shù)據(jù),爬取一頁的數(shù)據(jù)重新發(fā)送一個請求的時候調(diào)用,Response對象一般是由scrapy給你自動構(gòu)建的,因此開發(fā)者不需要關(guān)心如何創(chuàng)建Response對象,下面來一起來了解更多內(nèi)容吧
    2022-02-02
  • Python3+django2.0+apache2+ubuntu14部署網(wǎng)站上線的方法

    Python3+django2.0+apache2+ubuntu14部署網(wǎng)站上線的方法

    這篇文章主要介紹了Python3+django2.0+apache2+ubuntu14部署網(wǎng)站上線的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-07-07

最新評論