快捷導(dǎo)航

Python批量解壓文件中出現(xiàn)中文亂碼的原因及解決方法

更新時間：2023年08月21日 09:58:45 作者：布拉德特皮

這篇文章主要給大家記一次Python批量解壓文件遇中文亂碼及解決過程,文中有詳細的圖解及代碼示例,具有一定的參考價值,需要的朋友可以參考下

前言

因為工作原因，公司提高了對項目的安全掃描水平，所以最近在學(xué)習(xí)Web逆向工程。

通過付費渠道，拿到了關(guān)于 Python 爬蟲的相關(guān)教材，百度網(wǎng)盤下載后發(fā)現(xiàn)文件格式像套娃一樣（如下圖所示），如果30+個文件都挨個點進去解壓，就顯得有點愚蠢，正好同時要學(xué) Python，于是拿來練手，寫一個批量解壓的腳本，由此引出了標(biāo)題。

省流

在調(diào)用 zipfile.ZipFile() 方法時，需要多傳 metadata_encoding 參數(shù)，即：

with zipfile.ZipFile(sub_zip_path, 'r', metadata_encoding='gbk') as item:

編寫腳本

這里直接貼源碼了，主要是遍歷文件，并使用 zipfile 庫解壓：

import os
import zipfile
import shutil
origin_file_path = r"G:\Nas\爬蟲第11期"
# 使用 os.listdir 獲取目錄下的所有文件列表
path_dir = os.listdir(origin_file_path)
for finder in path_dir:
    # 拼接路徑
    item_path = os.path.join(origin_file_path, finder)
    # 如果是文件夾
    if os.path.isdir(item_path):
        # 繼續(xù)獲取子目錄下的文件列表
        sub_file_dir = os.listdir(item_path)
        # 如果不是空文件夾
        if len(sub_file_dir): 
            # 正常應(yīng)該用正則判斷是不是zip文件
            # 因為每個文件夾只有一個zip壓縮包，固直接取sub_file_dir的下標(biāo)0
            sub_zip_path = os.path.join(item_path, sub_file_dir[0])
            # 將文件解壓到當(dāng)前目錄
            zip_to_path = os.path.join(sub_zip_path, finder)
            # 參數(shù) r 代表自動轉(zhuǎn)義【盤符】
            with zipfile.ZipFile(sub_zip_path, 'r') as item:
                # 其實直接調(diào)用extractall方法可以實現(xiàn)全部解壓
                # item.extractall(item_path)
                # 遍歷壓縮文件，并解壓
                for name in item.namelist():
                    item.extract(name, item_path)
                    print(f'name: {name} | {sub_zip_path}')
                item.close()
            # 若對解壓結(jié)果不滿意，批量刪除
            # if os.path.isdir(sub_zip_path):
            #     shutil.rmtree(sub_zip_path)
            print(finder, item_path, sub_file_dir)
    else:
        print('isFile:', finder)

點擊運行，然后……

完全的亂碼，根本沒法用。

批量刪除（可選）

此時可以把批量刪除的代碼注釋打開，清空亂碼文件，即：

            # 參數(shù) r 代表自動轉(zhuǎn)義【盤符】
            # with zipfile.ZipFile(sub_zip_path, 'r') as item:
            #     # item.extractall(item_path)
            #     for name in item.namelist():
            #         item.extract(name, item_path)
            #         print(f'name: {name} | {sub_zip_path}')
            #     item.close()
            # 若對解壓結(jié)果不滿意，批量刪除
            if os.path.isdir(sub_zip_path):
                shutil.rmtree(sub_zip_path)

shutil.rmtree() 就是刪除整個文件夾（不會校驗子目錄的狀態(tài)）的意思