python讀取多類型文件夾中的文檔內(nèi)容
突發(fā)奇想,想使用python讀取多類型文件夾中的文檔內(nèi)容,在Python中,讀取多類型文件夾中的文檔內(nèi)容通常涉及幾個步驟:
- 遍歷文件夾以獲取文件列表。
- 根據(jù)文件擴(kuò)展名判斷文件類型。
- 使用適當(dāng)?shù)膸旎蚍椒▉碜x取每種文件類型的內(nèi)容。
以下是一個簡單的示例,展示如何使用Python讀取一個文件夾中所有.txt
和.docx
文件的內(nèi)容:
首先,你需要安裝python-docx
庫來讀取.docx
文件。你可以使用pip來安裝:
pip install python-docx
然后,你可以使用以下Python腳本來讀取文件夾中的文檔內(nèi)容:
import os from docx import Document def read_txt_file(file_path): with open(file_path, 'r', encoding='utf-8') as file: content = file.read() return content def read_docx_file(file_path): doc = Document(file_path) content = '\n'.join([para.text for para in doc.paragraphs]) return content def read_folder_contents(folder_path): for root, dirs, files in os.walk(folder_path): for file in files: file_path = os.path.join(root, file) if file_path.endswith('.txt'): content = read_txt_file(file_path) print(f"File: {file_path}") print(f"Content:\n{content}\n") elif file_path.endswith('.docx'): content = read_docx_file(file_path) print(f"File: {file_path}") print(f"Content:\n{content}\n") # 你可以根據(jù)需要添加更多文件類型的處理邏輯 # 使用示例 folder_to_read = 'path/to/your/folder' # 替換為你的文件夾路徑 read_folder_contents(folder_to_read)
這個腳本首先定義了讀取.txt
和.docx
文件的函數(shù)。然后,它遍歷指定的文件夾,并根據(jù)文件擴(kuò)展名調(diào)用相應(yīng)的讀取函數(shù)。對于每種文件類型,它都會打印文件名和內(nèi)容。你可以根據(jù)需要添加更多文件類型的處理邏輯。
請注意,處理不同類型的文件(如PDF、Excel等)可能需要使用不同的庫和方法。對于每種文件類型,你可能需要查找適當(dāng)?shù)腜ython庫來讀取其內(nèi)容。
ps:補(bǔ)
1 讀取Excel
通過pandas包來讀取
data = pd.read_excel('data.xlsx', sheet_name="Sheet1", header = 1) # header是第幾行數(shù)據(jù)作為列名
2 讀取csv文件
csv_data= pd.read_csv('/路徑/文件名.csv')
3 讀取txt文件
read_csv讀取時會自動識別表頭,數(shù)據(jù)有表頭時不能設(shè)置header為空(默認(rèn)讀取第一行,即header=0);數(shù)據(jù)無表頭時,若不設(shè)置header,第一行數(shù)據(jù)會被視為表頭,應(yīng)傳入names參數(shù)設(shè)置表頭名稱或設(shè)置header=None。
data = pd.read_csv(r'stdout', sep='\t', header=0) # stdout是txt文件
到此這篇關(guān)于python讀取多類型文件夾中的文檔內(nèi)容的文章就介紹到這了,更多相關(guān)python讀取多類型文件內(nèi)容內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
pandas.read_csv參數(shù)詳解(小結(jié))
這篇文章主要介紹了pandas.read_csv參數(shù)詳解(小結(jié)),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-06-06python?pygame英雄循環(huán)飛行及作業(yè)示例
這篇文章主要為大家介紹了python?pygame英雄循環(huán)飛行及作業(yè)實(shí)現(xiàn)示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-08-08PyCharm Python Console中文輸出亂碼問題及解決
這篇文章主要介紹了PyCharm Python Console中文輸出亂碼問題及解決方案,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-07-07手把手教你使用Python創(chuàng)建微信機(jī)器人
微信,一個日活10億的超級app,不僅在國內(nèi)社交獨(dú)領(lǐng)風(fēng)騷,在國外社交也同樣占有一席之地,今天我們要將便是如何用Python來生成一個微信機(jī)器人,感興趣的朋友跟隨小編一起看看吧2019-04-04