基于Python實(shí)現(xiàn)讀取嵌套壓縮包下文件的方法
思路
- 打開外層
zip
壓縮包并遍歷文件:- 使用
with zipfile.ZipFile(outer_zip_path, 'r') as outer_zip
語句以讀取模式'r'
打開用戶輸入的外層zip
壓縮包對應(yīng)的文件,這樣在代碼塊結(jié)束后會(huì)自動(dòng)關(guān)閉該文件,避免資源泄露。 - 通過
outer_zip.namelist()
獲取外層壓縮包內(nèi)所有文件和文件夾名稱的列表,并進(jìn)行遍歷。針對每個(gè)文件名,使用if file_name.endswith('.zip')
判斷是否為內(nèi)層壓縮包(即文件名以.zip
結(jié)尾),如果是,則進(jìn)入后續(xù)處理內(nèi)層壓縮包的相關(guān)流程。
- 使用
- 處理內(nèi)層壓縮包相關(guān)信息:
- 首先,打印內(nèi)層壓縮包的名稱,方便用戶知曉當(dāng)前正在處理的內(nèi)層壓縮包情況。
- 接著,通過
inner_zip_data = outer_zip.read(file_name)
讀取該內(nèi)層壓縮包的二進(jìn)制數(shù)據(jù),然后利用with zipfile.ZipFile(BytesIO(inner_zip_data), 'r') as inner_zip
語句將讀取到的二進(jìn)制數(shù)據(jù)借助BytesIO
模擬成一個(gè)臨時(shí)的zip
文件對象,再次以讀取模式打開,以便后續(xù)操作。 - 之后,使用
inner_zip.namelist()
獲取內(nèi)層壓縮包中的所有文件名列表,再進(jìn)行遍歷,逐個(gè)打印出這些文件名,展示內(nèi)層壓縮包包含的所有文件情況。
- 讀取內(nèi)層壓縮包中的文件內(nèi)容:
- 對于內(nèi)層壓縮包中的每個(gè)文件名,嘗試通過
file_data = inner_zip.read(inner_file_name)
讀取文件的二進(jìn)制數(shù)據(jù)。 - 接著,嘗試以
utf-8
編碼(假設(shè)文件內(nèi)容是UTF-8
編碼,實(shí)際中可根據(jù)具體情況調(diào)整編碼方式)將讀取到的二進(jìn)制數(shù)據(jù)解碼為文本并打印出來,通過print(file_data.decode('utf-8'))
實(shí)現(xiàn),這樣能展示文件的內(nèi)容(如果是文本文件的話)。 - 同時(shí),使用
try-except
塊來捕獲可能出現(xiàn)的錯(cuò)誤:- 如果出現(xiàn)
UnicodeDecodeError
,說明以utf-8
編碼無法正確解碼文件內(nèi)容,很可能該文件不是文本文件,此時(shí)會(huì)打印相應(yīng)提示信息。 - 如果出現(xiàn)其他異常(通過
except Exception as e
捕獲),則打印出具體的錯(cuò)誤信息,告知用戶讀取文件時(shí)出現(xiàn)了其他問題。
- 如果出現(xiàn)
- 對于內(nèi)層壓縮包中的每個(gè)文件名,嘗試通過
完整代碼
以下是一個(gè)Python代碼示例,用于輸入一個(gè)外層zip
壓縮包路徑,然后打印內(nèi)層壓縮包名、內(nèi)層壓縮包下的所有文件名,并讀取內(nèi)層壓縮包中的文件內(nèi)容(這里簡單以文本形式打印讀取到的內(nèi)容,你可以根據(jù)實(shí)際文件類型進(jìn)一步做針對性處理,比如是圖片、文檔等不同處理方式)。代碼中使用了zipfile
模塊來處理zip
壓縮包:
import zipfile from io import BytesIO def process_nested_zips(outer_zip_path): with zipfile.ZipFile(outer_zip_path, 'r') as outer_zip: # 遍歷外層壓縮包中的所有文件 for file_name in outer_zip.namelist(): if file_name.endswith('.zip'): print(f"內(nèi)層壓縮包名: {file_name}") # 將內(nèi)層壓縮包提取到臨時(shí)目錄(這里使用內(nèi)存中的BytesIO模擬臨時(shí)目錄,僅用于獲取信息,也可提取到實(shí)際磁盤目錄) inner_zip_data = outer_zip.read(file_name) with zipfile.ZipFile(BytesIO(inner_zip_data), 'r') as inner_zip: inner_file_names = inner_zip.namelist() print(f"{file_name} 下面的所有文件名:") for inner_file_name in inner_file_names: print(inner_file_name) # 讀取內(nèi)層壓縮包中的文件內(nèi)容 try: file_data = inner_zip.read(inner_file_name) print(f"文件 {inner_file_name} 的內(nèi)容如下(以文本形式展示,若為非文本文件可能顯示亂碼):") print(file_data.decode('utf-8')) # 假設(shè)文件內(nèi)容是UTF-8編碼,可根據(jù)實(shí)際調(diào)整 except UnicodeDecodeError: print(f"文件 {inner_file_name} 無法以UTF-8編碼解碼,可能不是文本文件") except Exception as e: print(f"讀取文件 {inner_file_name} 時(shí)出現(xiàn)其他錯(cuò)誤: {str(e)}") outer_zip_path = input("請輸入外層zip壓縮包的路徑:") process_nested_zips(outer_zip_path)
代碼優(yōu)化
如果考慮到壓縮包中文件名可能存在編碼不一致等情況,可以對代碼進(jìn)行如下優(yōu)化,添加文件名編碼處理部分:
import zipfile from io import BytesIO def process_nested_zips(outer_zip_path): with zipfile.ZipFile(outer_zip_path, 'r', encoding='utf-8') as outer_zip: # 設(shè)置外層壓縮包文件名編碼為utf-8,可根據(jù)實(shí)際調(diào)整 # 遍歷外層壓縮包中的所有文件 for file_name in outer_zip.namelist(): if file_name.endswith('.zip'): print(f"內(nèi)層壓縮包名: {file_name}") # 將內(nèi)層壓縮包提取到臨時(shí)目錄(這里使用內(nèi)存中的BytesIO模擬臨時(shí)目錄,僅用于獲取信息,也可提取到實(shí)際磁盤目錄) inner_zip_data = outer_zip.read(file_name) with zipfile.ZipFile(BytesIO(inner_zip_data), 'r', encoding='utf-8') as inner_zip: # 同樣設(shè)置內(nèi)層 inner_file_names = inner_zip.namelist() print(f"{file_name} 下面的所有文件名:") for inner_file_name in inner_file_names: print(inner_file_name) # 讀取內(nèi)層壓縮包中的文件內(nèi)容 try: file_data = inner_zip.read(inner_file_name) print(f"文件 {inner_file_name} 的內(nèi)容如下(以文本形式展示,若為非文本文件可能顯示亂碼):") print(file_data.decode('utf-8')) # 假設(shè)文件內(nèi)容是UTF-8編碼,可根據(jù)實(shí)際調(diào)整 except UnicodeDecodeError: print(f"文件 {inner_file_name} 無法以UTF-8編碼解碼,可能不是文本文件") except Exception as e: print(f"讀取文件 {inner_file_name} 時(shí)出現(xiàn)其他錯(cuò)誤: {str(e)}") outer_zip_path = input("請輸入外層zip壓縮包的路徑:") process_nested_zips(outer_zip_path)
在上述優(yōu)化后的代碼中,通過在打開zip文件對象時(shí)(外層和內(nèi)層的ZipFile構(gòu)造函數(shù)中)設(shè)置encoding屬性為utf-8(可根據(jù)實(shí)際情況確定正確的編碼方式,比如有些可能是GBK等),來盡量避免因文件名編碼問題導(dǎo)致的錯(cuò)誤,使得程序在處理包含不同編碼文件名的壓縮包時(shí)更加健壯。不過準(zhǔn)確判斷和設(shè)置正確的編碼可能需要額外的信息或者進(jìn)一步的測試驗(yàn)證等操作。
以上就是基于Python實(shí)現(xiàn)讀取嵌套壓縮包下文件的方法的詳細(xì)內(nèi)容,更多關(guān)于Python讀取嵌套壓縮包下文件的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python實(shí)現(xiàn)從文件中讀取數(shù)據(jù)并繪制成 x y 軸圖形的方法
今天小編就為大家分享一篇python實(shí)現(xiàn)從文件中讀取數(shù)據(jù)并繪制成 x y 軸圖形的方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-10-10詳解Django中CBV(Class Base Views)模型源碼分析
這篇文章主要介紹了詳解Django中CBV(Class Base Views)模型源碼分析,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2019-02-02MySQL中表的復(fù)制以及大型數(shù)據(jù)表的備份教程
這篇文章主要介紹了MySQL中表的復(fù)制以及大型數(shù)據(jù)表的備份教程,其中大表備份是采用添加觸發(fā)器增量備份的方法,需要的朋友可以參考下2015-11-11Python數(shù)據(jù)可視化實(shí)現(xiàn)多種圖例代碼詳解
這篇文章主要介紹了Python數(shù)據(jù)可視化實(shí)現(xiàn)多種圖例代碼詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-07-07pandas數(shù)據(jù)框,統(tǒng)計(jì)某列數(shù)據(jù)對應(yīng)的個(gè)數(shù)方法
下面小編就為大家分享一篇pandas數(shù)據(jù)框,統(tǒng)計(jì)某列數(shù)據(jù)對應(yīng)的個(gè)數(shù)方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-04-04matlab和Excel的數(shù)據(jù)交互操作(非xlsread和xlswrite)
在使用MATLAB時(shí),可能會(huì)遇到很多表格數(shù)據(jù)的處理,有時(shí)MATLAB也需要利用現(xiàn)存的表格數(shù)據(jù)實(shí)現(xiàn)操作目的,下面這篇文章主要給大家介紹了關(guān)于matlab和Excel的交互操作的相關(guān)資料,非xlsread和xlswrite,需要的朋友可以參考下2021-08-08python 實(shí)現(xiàn)docx與doc文件的互相轉(zhuǎn)換
這篇文章主要介紹了python 實(shí)現(xiàn)docx與doc文件的互相轉(zhuǎn)換操作,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03