使用Python批量處理Excel文件并轉(zhuǎn)為csv文件示例
前言
今天一位正在國企實習的朋友突然私信找到我,說領(lǐng)導派了個離譜的活,大概就是需要將一個大文件夾里面的excel文件進行簡單處理后再轉(zhuǎn)為csv格式的文件,然后這個大文件里面有五個二級文件夾,這五個二級文件夾里面都有一個三級文件夾,然后每個三級文件夾里面都有14-18個四級文件夾,每個四級文件夾里面有31個excel文件和極少量csv文件夾。聽起來層級是不是特別饒,而且加起來總共有2000多個excel文件。處理的話是將表格中的時間列格式進行轉(zhuǎn)換,最后存儲為csv文件。這要是人工一個一個文件弄,這得累死人,這種重復(fù)的工作當然是交給腳本啦!
一、Python處理Excel
Python處理Excel的好處
1.批量操作:當要處理眾多Excel文件時,例如出現(xiàn)重復(fù)性的手工勞動,那么使用Python就可以實現(xiàn)批量掃描文件、自動化進行處理,利用代碼代替手工重復(fù)勞動,實現(xiàn)自動化,是Python第一個比Excel強大的地方
2.大型文件,當Excel文件超過幾十兆、甚至上百兆時,打開文件很慢、處理文件更加慢,這時候若使用Python,會發(fā)現(xiàn)處理幾十兆、幾百兆甚至幾GB都是沒有問題的
3.當使用Excel進行復(fù)雜的計算時,會使用VBA,但是VBA本身是過時并且復(fù)雜的語言,Python是當前最簡單且容易實現(xiàn)的一門語言,用Python能夠處理比VBA難度更高的業(yè)務(wù)邏輯
4.Python是通用語言,不僅可以處理Excel,使用Python就可以得到很多額外的功能,例如:爬蟲、發(fā)布網(wǎng)頁的Web服務(wù)、與數(shù)據(jù)庫進行連接、同時結(jié)合word和PPT進行處理、加入定時任務(wù)處理、人工智能分析等,各種額外的功能,這是Excel和VBA所不具備的
Python處理Excel主要有三大類庫
1.pandas:是Python領(lǐng)域非常重要的,用于數(shù)據(jù)分析和可視化的類庫,在處理Excel中,90%可以利用pandas類庫就可以搞掂,利用pandas就可以讀取Excel、處理Excel和輸出Excel,但是pandas也有缺點,就是無法做到格式類,例如Excel中合并單元、大量復(fù)雜的樣式(看起來很精美)的時候,用pandas無法搞掂,此時,依然是使用pandas結(jié)合openyxl、xlwings來搞掂需求
2.openpyxl:若電腦上未安裝office時,也可以使用openpyxl,這個類型可以運行在linux上,并且也可以實現(xiàn)操作大部分Excel格式和樣式的功能,使用它配合pandas,也可以完成大部分場景的需求
3.xlwings:比openyxl更加強大,只能運行在Windows或者Mac系統(tǒng),并且該系統(tǒng)中必須安裝了office才能運行,xlwings的原理,就是基于當前系統(tǒng)已經(jīng)安裝好的office軟件,來進行功能的拓展來操作Excel
使用pandas的時候,經(jīng)常會結(jié)合其他類庫,來完成更加復(fù)雜的功能
requests, bs4:可以完成爬蟲的功能
flask:可以做網(wǎng)頁,把表格展示在網(wǎng)頁上
Matplotlib:讀取表格后,進行可視化
sklearn:進行復(fù)雜的數(shù)據(jù)分析時,也可以結(jié)合機器學習Sklearn把讀取的Excel數(shù)據(jù),進行數(shù)據(jù)分析和機器學習
Python-docx:也可以結(jié)合Python-docx類庫,實現(xiàn)Excel和word的互通
smtplib:也可以使用smtplib,講Excel數(shù)據(jù)發(fā)送郵件出去
開發(fā)環(huán)境
操作系統(tǒng):使用windows, mac都可以
Python版本:系統(tǒng)中需要安裝Python3.6以上的版本,Python2已經(jīng)過期不建議使用,Python3.6以前的版本功能相對弱,最好就是采用Python3.6以上的版本
開發(fā)工具:有兩個可以選擇,jupyter notebook,是個網(wǎng)頁編輯器,可以運行Python,常常用于交互性、探索性的開發(fā);pycharm,用于成熟腳本,或者web服務(wù)的一些開發(fā);這兩個工具可以隨意選擇。
二、批量處理Excel文件并轉(zhuǎn)為csv文件
技術(shù)工具:
Python版本:3.9
代碼編輯器:jupyter notebook
處理思路
寫代碼之前我們首先需要針對這個需求在腦子里做出一個流程圖出來,大概就是使用os庫層層遍歷文件夾,當遍歷到excel文件這一級路徑時,我們使用pandas讀取excel文件,將time時間列轉(zhuǎn)為時間序列類型并符合要求格式,接著使用pandas將處理后的文件保存為csv文件并輸出在同一路徑下,最后再將原始excel文件進行刪除即可。
處理過程
首先看一下文件夾路徑結(jié)構(gòu)
然后我寫的腳本與sample_data在同一級
具體腳本代碼如下:
import pandas as pd import os from datetime import datetime # 基礎(chǔ)文件夾路徑 base_dir = './sample_data' # 循環(huán)遍歷到每一個excel文件并修改其文件類型為csv for first_floor in os.listdir(base_dir): # 遍歷第一層 second_floor_dir = base_dir+'/'+first_floor # 獲取第二層的文件路徑 for second_floor in os.listdir(second_floor_dir): # 遍歷第二層 third_floor_dir = base_dir+'/'+first_floor+'/'+second_floor # 獲取第三層的文件路徑 for third_floor in os.listdir(third_floor_dir): # 遍歷第三層 fourth_floor_dir = base_dir+'/'+first_floor+'/'+second_floor+'/'+third_floor # 獲取第四層的文件路徑 for file_dir in os.listdir(fourth_floor_dir): # 遍歷第四層 file_name = file_dir.split('.')[0] # 獲取excel文件名稱 file_suffix = file_dir.split('.')[1] # 獲取excel文件后綴 print(fourth_floor_dir) if file_suffix=='xlsx' or file_suffix=='xls': # 判斷文件是否是excel文件 df = pd.read_excel(fourth_floor_dir+'/'+file_dir) # 讀取excel文件 df['Time'] = pd.to_datetime(df['Time']) df['Time'] = df['Time'].apply(lambda x:datetime.strftime(x,'%Y-%m-%d %H:%M:%S')) df.to_csv(fourth_floor_dir+'/'+file_name+'.csv',index=False) # 將excel文件保存為csv文件 os.remove(fourth_floor_dir+'/'+file_dir) # 刪除原來的excel文件
首先定義基礎(chǔ)文件夾路徑,接著使用os.listdir()獲取文件夾列表,嵌套四層循環(huán)即可到達excel文件的路徑下,然后使用字符串切割獲取文件名和后綴,判斷后綴是否為excel文件,是的話就使用pandas讀取數(shù)據(jù),然后轉(zhuǎn)換列類型并轉(zhuǎn)為要求格式,最后保存為csv文件并刪除原來excel文件。運行之后就大功告成啦!
最后還得到了朋友的肯定,其實學Python并不一定要去做程序員,像這種辦公軟件(excel、PPT、word)在公司里都是必備技能,但是當要處理的文件太多或者都是一些重復(fù)性的工作,那此時你用Python寫個自動化腳本來做,省時又省力,提高工作效率,同時還能獲得領(lǐng)導的欣賞。
以上就是使用Python批量處理Excel文件并轉(zhuǎn)為csv文件示例的詳細內(nèi)容,更多關(guān)于Python處理Excel并轉(zhuǎn)為csv的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
numpy.ndarray 交換多維數(shù)組(矩陣)的行/列方法
今天小編就為大家分享一篇numpy.ndarray 交換多維數(shù)組(矩陣)的行/列方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-08-08如何設(shè)置PyCharm中的Python代碼模版(推薦)
這篇文章主要介紹了如何設(shè)置PyCharm中的Python代碼模版,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-11-11python使用Tkinter顯示網(wǎng)絡(luò)圖片的方法
這篇文章主要介紹了python使用Tkinter顯示網(wǎng)絡(luò)圖片的方法,涉及Python操作圖片的相關(guān)技巧,需要的朋友可以參考下2015-04-04