Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對(duì)比
有人問Python怎么處理大數(shù)據(jù)的Excel文件?
Python處理Excel大數(shù)據(jù)有很多方式,不過Excel撐死才104萬行,能有多大的數(shù)據(jù),一般用pandas讀取就可以,pandas有專門的分塊讀取模式,比如說每次只讀取1萬行用于處理,這樣就不會(huì)太占用內(nèi)存。
pandas read_excel方法有專門的參數(shù)chunksize用于設(shè)置分塊讀取,代碼示例如下:
import pandas as pd
# 讀取'test_data.xlsx'大文件
# 分塊讀取以減少內(nèi)存占用
chunk_size = 10000
chunks = pd.read_excel('test_data.xlsx', chunksize=chunk_size)
# 對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行處理
processed_data = []
for i, chunk in enumerate(chunks):
這里代碼是對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行處理......
讀取Excel能用pandas盡量用pandas,但如果Excel文件非常大,已經(jīng)遠(yuǎn)大于內(nèi)存容量了,或者你相對(duì)Excel有更多其他處理,比如修改格式等,則可以用OpenPyXL。
它有專門的流式讀取方式(只讀模式read-only mode)來處理Excel,底層原理是OpenPyXL不會(huì)加載整個(gè)Excel文件到內(nèi)存,而是保存為一個(gè)邏輯對(duì)象,在用的時(shí)候才流式去讀取它。
from openpyxl import load_workbook
# 使用只讀模式讀取大型Excel文件
read_wb = load_workbook('large_data.xlsx', read_only=True)
read_ws = read_wb.active
# 以流式方式逐行讀取、處理和寫入
row_count = 0
for row in read_ws.iter_rows(min_row=2):
這里代碼是對(duì)每一行進(jìn)行處理......
OpenPyXL也可以流式寫入Excel,原理同讀取一樣,采用write_only模式。
另外一個(gè)可以大規(guī)模寫入數(shù)據(jù),不占用內(nèi)存的是庫是XlsxWriter,它有個(gè)“常量?jī)?nèi)存”模式,支持每寫入一行,就在內(nèi)存中清除上一行占用的空間,意味著內(nèi)存只存有一行數(shù)據(jù),永遠(yuǎn)是夠用的。
import xlsxwriter
# 創(chuàng)建一個(gè)文件名,用于寫入數(shù)據(jù)
file_name = 'large_data_constant_memory.xlsx'
# 創(chuàng)建一個(gè)工作簿對(duì)象,并啟用常量?jī)?nèi)存模式
workbook = xlsxwriter.Workbook(file_name, {'constant_memory': True})
worksheet = workbook.add_worksheet()
這里可以寫入大量數(shù)據(jù),不會(huì)占用內(nèi)存......
除了以上幾個(gè)庫,還有像Dask、Polars、Modin、Rapids等庫可以處理Excel大數(shù)據(jù)集,都是類似pandas的操作模式,但速度會(huì)快很多,可以試試。
方法補(bǔ)充
Python 處理大文件的 10 種方法
用 Python 處理大型文本文件可能會(huì)讓人感到不知所措。當(dāng)文件大小達(dá)到 GB 級(jí)時(shí),嘗試一次性將它們?nèi)考虞d到內(nèi)存中可能會(huì)導(dǎo)致程序崩潰。不過不用擔(dān)心——Python 提供了多種策略來高效處理此類文件,而不會(huì)耗盡內(nèi)存或性能。
1. 使用迭代器逐行讀取
逐行讀取文件可以確保每次只有一小部分內(nèi)容加載到內(nèi)存中。具體操作如下:
with open('large_file.txt', 'r') as file:
for line in file:
process(line) # Replace with your processing function2. 分塊閱讀
有時(shí),你需要比逐行讀取更大的靈活性。以固定大小的塊讀取文件可以讓你控制一次處理的數(shù)據(jù)量。
def read_file_in_chunks(file_path, chunk_size=1024): with open(file_path, 'r') as file: while True: chunk = file.read(chunk_size) if not chunk: break process(chunk) # Replace with your processing function
3.緩沖文件讀取
緩沖讀取通過以更大的內(nèi)部塊處理文件來提供更高級(jí)別的優(yōu)化:
with open('large_file.txt', 'rb', buffering=10 * 1024 * 1024) as file: # 10 MB buffer
for line in file:
process(line)為什么要使用它? 減少頻繁磁盤 I/O 操作的開銷。
4. 內(nèi)存映射文件(mmap)
內(nèi)存映射允許 Python 直接在內(nèi)存中將文件視為字節(jié)數(shù)組。這徹底改變了隨機(jī)訪問的格局。
from mmap import mmap
with open('large_file.txt', 'r') as file:
with mmap(file.fileno(), length=0, access=mmap.ACCESS_READ) as mm:
for line in mm:
process(line.decode('utf-8'))5. 使用生成器
生成器允許您延遲處理數(shù)據(jù),僅加載必要的數(shù)據(jù)。
def generate_lines(file_path):
with open(file_path, 'r') as file:
for line in file:
yield line
for line in generate_lines('large_file.txt'):
process(line)為什么它很棒: 通過一次處理一行來減少內(nèi)存使用量。
6. 批量處理線路
對(duì)于結(jié)構(gòu)化文件,您可以一次處理多組行(或記錄)。
def read_batches(file_path, batch_size=5):
with open(file_path, 'r') as file:
batch = []
for line in file:
batch.append(line.strip())
if len(batch) == batch_size:
yield batch
batch = []
if batch:
yield batch
# Example usage:
for batch in read_batches('cars.txt'):
process_batch(batch) # Replace with your processing logic適用于: CSV 或日志等結(jié)構(gòu)化數(shù)據(jù)。
7.流處理
如果數(shù)據(jù)連續(xù)到達(dá)(例如日志或 API),請(qǐng)使用流處理。
import requests def stream_data(url): with requests.get(url, stream=True) as response: for line in response.iter_lines(): process(line)
用例: 實(shí)時(shí)日志監(jiān)控或 API 數(shù)據(jù)流。
8. Dask 并行處理
對(duì)于海量數(shù)據(jù)集,可以考慮使用 Dask ,這是一個(gè)專為大數(shù)據(jù)并行計(jì)算而設(shè)計(jì)的庫。
import dask.dataframe as dd
df = dd.read_csv('large_dataset.csv')
result = df[df['column'] > 100].compute()為什么選擇 Dask? 通過將內(nèi)存不足的數(shù)據(jù)分塊處理,可以更好地處理這些數(shù)據(jù)。
9. PySpark 用于分布式處理
如果您的數(shù)據(jù)大小超出了單臺(tái)機(jī)器的容量,請(qǐng)使用 PySpark 進(jìn)行分布式處理。
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("LargeFileProcessing").getOrCreate()
df = spark.read.csv('large_dataset.csv')
df.filter(df['column'] > 100).show()最適合: 需要集群級(jí)資源的大數(shù)據(jù)任務(wù)。
10. 特定格式的高效庫
對(duì)于特定文件類型,使用優(yōu)化庫:
關(guān)于大文件處理的有趣事實(shí)
應(yīng)避免的常見錯(cuò)誤
加載整個(gè)文件: 除非文件很小,否則避免使用 file.readlines() 。
忘記緩沖: 使用緩沖 I/O 實(shí)現(xiàn)更流暢的性能。
忽略邊緣情況: 始終處理諸如空行或無效格式之類的錯(cuò)誤。
到此這篇關(guān)于Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對(duì)比的文章就介紹到這了,更多相關(guān)Python讀寫Excel內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python給Excel寫入數(shù)據(jù)的四種方法小結(jié)
- 使用Python讀取Excel數(shù)據(jù)并寫入到CSV、XML和文本
- 使用Python實(shí)現(xiàn)將數(shù)據(jù)寫入Excel工作表
- Python辦公自動(dòng)化從Excel中計(jì)算整理數(shù)據(jù)并寫入Word
- Python自動(dòng)化辦公之Excel數(shù)據(jù)的寫入
- python數(shù)據(jù)寫入Excel文件中的實(shí)現(xiàn)步驟
- 教你用python將數(shù)據(jù)寫入Excel文件中
- Python自動(dòng)化實(shí)現(xiàn)寫入數(shù)據(jù)到Excel文件
相關(guān)文章
Python通過Pillow實(shí)現(xiàn)圖片對(duì)比
這篇文章主要介紹了Python Pillow實(shí)現(xiàn)圖片對(duì)比,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-04-04
python新手經(jīng)常遇到的17個(gè)錯(cuò)誤分析
這篇文章主要介紹了python新手經(jīng)常遇到的17個(gè)錯(cuò)誤分析,需要的朋友可以參考下2014-07-07
Xadmin+rules實(shí)現(xiàn)多選行權(quán)限方式(級(jí)聯(lián)效果)
這篇文章主要介紹了Xadmin+rules實(shí)現(xiàn)多選行權(quán)限方式(級(jí)聯(lián)效果),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-04-04
Pytorch evaluation每次運(yùn)行結(jié)果不同的解決
今天小編就為大家分享一篇Pytorch evaluation每次運(yùn)行結(jié)果不同的解決,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01
python實(shí)現(xiàn)點(diǎn)擊按鈕修改數(shù)據(jù)的方法
今天小編就為大家分享一篇python實(shí)現(xiàn)點(diǎn)擊按鈕修改數(shù)據(jù)的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-07-07

