Python 2/3下處理cjk編碼的zip文件的方法
今天項目中遇到了中文編碼的zip文件,處理了蠻長時間,所以記錄下,以免下次踩坑。
Python2下
Python2中讀取zip文件,zipfile.ZipInfo的filename類型是str,基本上類似于python3中的bytes,即可以被decode為unicode。
所以,要處理中文,只需要將文件名按照編碼decode成unicode就好。
import zipfile fpath = '/path/to/zip.zip' zfile = zipfile.ZipFile(fpath, 'r') for fileinfo in zfile.filelist: print fileinfo.filename.decode('gb18030') # 如果要更加詳細的區(qū)分bytes/str/unicode的語義 print bytes(fileinfo.filename).decode('gb18030')
Python3下
Python3中,Language encoding flag (EFS)如果是1,則按照utf8來處理文件編碼,EFS如果為0,則直接按照cp437解碼文件名。這是標準直接規(guī)定的。
但是,很多軟件在制作zip壓縮包的時候,直接使用gb18030或者其他非標準編碼格式來編碼文件名,所以我們還得將文件名反轉(zhuǎn)為bytes,然后再使用對應的編碼方式解碼:
fpath = '/path/to/zip.zip' zfile = zipfile.ZipFile(fpath, 'r') for fileinfo in zfile.filelist: print(fileinfo.filename.encode('cp437').decode('gb18030'))
方法都有了,那直接根據(jù)文件名智能猜測文件編碼,然后解壓就好。但是由于單個文件名太短,chardet的猜測可能不準,所以我們可以直接將所有的文件名連接起來,猜測編碼。
代碼請參考 mczip ,兼容python2和python3。
總結(jié)
以上所述是小編給大家介紹的Python 2/3下處理cjk編碼的zip文件的方法,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉(zhuǎn)載,煩請注明出處,謝謝!
相關(guān)文章
python腳本當作Linux中的服務啟動實現(xiàn)方法
今天小編就為大家分享一篇python腳本當作Linux中的服務啟動實現(xiàn)方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06使用Python實現(xiàn)NBA球員數(shù)據(jù)查詢小程序功能
這篇文章主要介紹了使用Python實現(xiàn)NBA球員數(shù)據(jù)查詢小程序功能,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-11-11Python字典刪除鍵值對和元素的四種方法(小結(jié))
刪除列表或者字符串元素的方法不止一種,同樣,刪除字典元素的方法也不止一種,本文主要介紹python中刪除字典元素的四種方法:1、使用del語句;2、使用clear();3、使用pop();4、使用popitem()。感興趣的可以了解一下2021-12-12Python如何優(yōu)雅刪除字符列表空字符及None元素
這篇文章主要介紹了Python如何優(yōu)雅刪除字符列表空字符及None元素,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-06-06