pandas讀取文件夾下所有excel文件的實現(xiàn)
我這邊有個需求,是要求匯總一個文件夾所有的excel文件, 其中有.xls和 .xlsx文件,同時還excel文件中的數(shù)據(jù)可能還不一致,會有表頭數(shù)據(jù)不一樣需要一起匯總。
首先先遍歷子文件夾并讀取Excel文件: 使用os庫來遍歷包含子文件夾的主文件夾,并讀取所有的Excel文件。
import os main_folder = '文件夾路徑' all_data = [] for root, dirs, files in os.walk(main_folder): for file in files: if file.endswith(".xlsx"): # 只處理Excel文件,可以根據(jù)需要修改擴展名 file_path = os.path.join(root, file) df = pd.read_excel(file_path, skiprows=2) # 跳過前兩行無用數(shù)據(jù) all_data.append(df) elif file.endswith(".xls"): file_path = os.path.join(root, file) df = pd.read_excel(file_path, skiprows=2, engine='xlrd') all_data.append(df)
然后是合并數(shù)據(jù): 使用pandas的concat函數(shù)將所有數(shù)據(jù)幀合并為一個總的數(shù)據(jù)幀,并處理不同表頭的情況。假設(shè)表頭位于第一行。
combined_df = pd.concat(all_data, ignore_index=True) # 處理不同表頭的情況 combined_df = combined_df.fillna('') # 將NaN值填充為空字符串
最后呢 ,保存總表:將合并后的數(shù)據(jù)保存到一個新的Excel文件
combined_df.to_excel('保存的excel文件路徑', index=False)
出現(xiàn)的問題
上圖錯誤, 我用斷點調(diào)試去看數(shù)據(jù), 發(fā)現(xiàn)里面出現(xiàn)了一個錯誤的文件路徑。 是以~$ 開頭的一個excel文件。但是真實環(huán)境中是沒有這個excel文件,去查了一下資料如下解釋:在Windows系統(tǒng)中,當(dāng)一個Excel文件(.xlsx 或 .xls)正在被某個用戶編輯時,Excel會創(chuàng)建一個臨時文件,文件名以 ~$ 開頭,然后是原始文件的名稱。這個臨時文件用于跟蹤編輯進程,以防止多個用戶同時編輯相同的文件時發(fā)生沖突。
所以在os.walk遍歷文件夾時,它會包括所有文件,包括這些臨時文件。這些臨時文件通常不應(yīng)被處理或讀取,因為它們是Excel編輯過程中的中間文件。
解決方案
要在遍歷文件夾時排除這些臨時文件,您可以添加一個條件來檢查文件名,如果文件名以 ~$ 開頭,則跳過該文件,在循環(huán)中多加一個判斷就好了。
if not file.startswith("~$"):
到此這篇關(guān)于pandas讀取文件夾下所有excel文件的實現(xiàn)的文章就介紹到這了,更多相關(guān)pandas讀取所有excel文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python?遞歸式實現(xiàn)二叉樹前序,中序,后序遍歷
這篇文章主要介紹了Python?遞歸式實現(xiàn)二叉樹前序,中序,后序遍歷,更多相關(guān)資料,需要的小伙伴可以參考下面具體的文章內(nèi)容2022-03-03解決已經(jīng)安裝requests,卻依然提示No module named requests問題
今天小編就為大家分享一篇解決已經(jīng)安裝requests,卻依然提示No module named 'requests'問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05python?flask項目打包成docker鏡像發(fā)布的過程
這篇文章主要介紹了python?flask項目打包成docker鏡像發(fā)布,本文通過實例代碼給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2023-03-03wxPython中wx.gird.Gird添加按鈕的實現(xiàn)
本文主要介紹了wxPython中wx.gird.Gird添加按鈕的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-03-03python機器學(xué)習(xí)包mlxtend的安裝和配置詳解
這篇文章主要介紹了python機器學(xué)習(xí)包mlxtend的安裝和配置詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-08-08PyCharm 無法 import pandas 程序卡住的解決方式
這篇文章主要介紹了PyCharm 無法 import pandas 程序卡住的解決方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-03-03Python使用smtplib模塊發(fā)送電子郵件的流程詳解
Python中自帶的smtplib模塊可以進行基于SMTP協(xié)議的郵件操作,這里我們便總結(jié)了Python使用smtplib模塊發(fā)送電子郵件的流程詳解,并對一些常見的問題給出了解決方法:2016-06-06