Python 2/3下處理cjk編碼的zip文件的方法

更新時間：2019年04月26日 09:55:46 作者：Robert''s Blog

今天小編給大家分享Python 2/3下處理cjk編碼的zip文件的方法，在項目中經(jīng)常會遇到這樣的問題，小編特意分享到腳本之家平臺，感興趣的朋友跟隨小編一起看看吧

今天項目中遇到了中文編碼的zip文件，處理了蠻長時間，所以記錄下，以免下次踩坑。

Python2下

Python2中讀取zip文件，zipfile.ZipInfo的filename類型是str，基本上類似于python3中的bytes，即可以被decode為unicode。

所以，要處理中文，只需要將文件名按照編碼decode成unicode就好。

import zipfile
fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
  print fileinfo.filename.decode('gb18030')
  # 如果要更加詳細的區(qū)分bytes/str/unicode的語義
  print bytes(fileinfo.filename).decode('gb18030')

Python3下

Python3中，Language encoding flag (EFS)如果是1，則按照utf8來處理文件編碼，EFS如果為0，則直接按照cp437解碼文件名。這是標準直接規(guī)定的。

但是，很多軟件在制作zip壓縮包的時候，直接使用gb18030或者其他非標準編碼格式來編碼文件名，所以我們還得將文件名反轉(zhuǎn)為bytes，然后再使用對應的編碼方式解碼：

fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
  print(fileinfo.filename.encode('cp437').decode('gb18030'))

方法都有了，那直接根據(jù)文件名智能猜測文件編碼，然后解壓就好。但是由于單個文件名太短，chardet的猜測可能不準，所以我們可以直接將所有的文件名連接起來，猜測編碼。

代碼請參考 mczip ，兼容python2和python3。

總結(jié)

以上所述是小編給大家介紹的Python 2/3下處理cjk編碼的zip文件的方法,希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持！
如果你覺得本文對你有幫助，歡迎轉(zhuǎn)載，煩請注明出處，謝謝！

您可能感興趣的文章:

python中os.path.exits()的坑
本文主要介紹了python中os.path.exits()的坑，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2023-04-04
python腳本當作Linux中的服務啟動實現(xiàn)方法
今天小編就為大家分享一篇python腳本當作Linux中的服務啟動實現(xiàn)方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-06-06
python 實現(xiàn)波浪濾鏡特效
這篇文章主要介紹了python 實現(xiàn)波浪濾鏡特效的方法，幫助大家更好的利用python處理圖片，感興趣的朋友可以了解下
2020-12-12
使用Python實現(xiàn)NBA球員數(shù)據(jù)查詢小程序功能
這篇文章主要介紹了使用Python實現(xiàn)NBA球員數(shù)據(jù)查詢小程序功能,本文通過實例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-11-11
Python字典刪除鍵值對和元素的四種方法(小結(jié))
刪除列表或者字符串元素的方法不止一種，同樣，刪除字典元素的方法也不止一種，本文主要介紹python中刪除字典元素的四種方法：1、使用del語句；2、使用clear()；3、使用pop()；4、使用popitem()。感興趣的可以了解一下
2021-12-12
Python3如何使用多線程升程序運行速度
這篇文章主要介紹了Python3如何使用多線程升程序運行速度,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-08-08
django之如何按日期查詢數(shù)據(jù)
這篇文章主要介紹了django之如何按日期查詢數(shù)據(jù)問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2023-08-08
python操作mysql、excel、pdf的示例
這篇文章主要介紹了python操作mysql、excel、pdf的示例，幫助大家更好的理解和學習使用python，感興趣的朋友可以了解下
2021-03-03
Python如何優(yōu)雅刪除字符列表空字符及None元素
這篇文章主要介紹了Python如何優(yōu)雅刪除字符列表空字符及None元素,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-06-06
詳解TensorFlow查看ckpt中變量的幾種方法
本篇文章主要介紹了詳解TensorFlow查看ckpt中變量的幾種方法，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2018-06-06