快捷導(dǎo)航

Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對(duì)比

更新時(shí)間：2025年09月10日 15:53:53 作者：@Python大數(shù)據(jù)分析

Python處理Excel大數(shù)據(jù)有很多方式,不過Excel撐死才104萬行,能有多大的數(shù)據(jù),本文主要介紹了三種常見方式,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下

有人問Python怎么處理大數(shù)據(jù)的Excel文件？

Python處理Excel大數(shù)據(jù)有很多方式，不過Excel撐死才104萬行，能有多大的數(shù)據(jù)，一般用pandas讀取就可以，pandas有專門的分塊讀取模式，比如說每次只讀取1萬行用于處理，這樣就不會(huì)太占用內(nèi)存。

pandas read_excel方法有專門的參數(shù)chunksize用于設(shè)置分塊讀取，代碼示例如下：

import pandas as pd

# 讀取'test_data.xlsx'大文件

# 分塊讀取以減少內(nèi)存占用
chunk_size = 10000
chunks = pd.read_excel('test_data.xlsx', chunksize=chunk_size)

# 對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行處理
processed_data = []
for i, chunk in enumerate(chunks):
    這里代碼是對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行處理......

讀取Excel能用pandas盡量用pandas，但如果Excel文件非常大，已經(jīng)遠(yuǎn)大于內(nèi)存容量了，或者你相對(duì)Excel有更多其他處理，比如修改格式等，則可以用OpenPyXL。

它有專門的流式讀取方式（只讀模式read-only mode）來處理Excel，底層原理是OpenPyXL不會(huì)加載整個(gè)Excel文件到內(nèi)存，而是保存為一個(gè)邏輯對(duì)象，在用的時(shí)候才流式去讀取它。

from openpyxl import load_workbook

# 使用只讀模式讀取大型Excel文件
read_wb = load_workbook('large_data.xlsx', read_only=True)
read_ws = read_wb.active

# 以流式方式逐行讀取、處理和寫入
row_count = 0
for row in read_ws.iter_rows(min_row=2): 
    這里代碼是對(duì)每一行進(jìn)行處理......

OpenPyXL也可以流式寫入Excel，原理同讀取一樣，采用write_only模式。

另外一個(gè)可以大規(guī)模寫入數(shù)據(jù)，不占用內(nèi)存的是庫是XlsxWriter，它有個(gè)“常量?jī)?nèi)存”模式，支持每寫入一行，就在內(nèi)存中清除上一行占用的空間，意味著內(nèi)存只存有一行數(shù)據(jù)，永遠(yuǎn)是夠用的。

import xlsxwriter

# 創(chuàng)建一個(gè)文件名，用于寫入數(shù)據(jù)
file_name = 'large_data_constant_memory.xlsx'

# 創(chuàng)建一個(gè)工作簿對(duì)象，并啟用常量?jī)?nèi)存模式
workbook = xlsxwriter.Workbook(file_name, {'constant_memory': True})
worksheet = workbook.add_worksheet()
這里可以寫入大量數(shù)據(jù)，不會(huì)占用內(nèi)存......

除了以上幾個(gè)庫，還有像Dask、Polars、Modin、Rapids等庫可以處理Excel大數(shù)據(jù)集，都是類似pandas的操作模式，但速度會(huì)快很多，可以試試。

方法補(bǔ)充

Python 處理大文件的 10 種方法

用 Python 處理大型文本文件可能會(huì)讓人感到不知所措。當(dāng)文件大小達(dá)到 GB 級(jí)時(shí)，嘗試一次性將它們?nèi)考虞d到內(nèi)存中可能會(huì)導(dǎo)致程序崩潰。不過不用擔(dān)心——Python 提供了多種策略來高效處理此類文件，而不會(huì)耗盡內(nèi)存或性能。

1. 使用迭代器逐行讀取

逐行讀取文件可以確保每次只有一小部分內(nèi)容加載到內(nèi)存中。具體操作如下：

with open('large_file.txt', 'r') as file:
for line in file:
process(line) # Replace with your processing function

2. 分塊閱讀

有時(shí)，你需要比逐行讀取更大的靈活性。以固定大小的塊讀取文件可以讓你控制一次處理的數(shù)據(jù)量。

def read_file_in_chunks(file_path, chunk_size=1024):
with open(file_path, 'r') as file:
while True:
chunk = file.read(chunk_size)
if not chunk:
break
process(chunk) # Replace with your processing function

3.緩沖文件讀取

緩沖讀取通過以更大的內(nèi)部塊處理文件來提供更高級(jí)別的優(yōu)化：

with open('large_file.txt', 'rb', buffering=10 * 1024 * 1024) as file: # 10 MB buffer
for line in file:
process(line)

為什么要使用它？ 減少頻繁磁盤 I/O 操作的開銷。

4. 內(nèi)存映射文件（mmap）

內(nèi)存映射允許 Python 直接在內(nèi)存中將文件視為字節(jié)數(shù)組。這徹底改變了隨機(jī)訪問的格局。

from mmap import mmap

with open('large_file.txt', 'r') as file:
with mmap(file.fileno(), length=0, access=mmap.ACCESS_READ) as mm:
for line in mm:
process(line.decode('utf-8'))

5. 使用生成器

生成器允許您延遲處理數(shù)據(jù)，僅加載必要的數(shù)據(jù)。

def generate_lines(file_path):
with open(file_path, 'r') as file:
for line in file:
yield line

for line in generate_lines('large_file.txt'):
process(line)

為什么它很棒： 通過一次處理一行來減少內(nèi)存使用量。

6. 批量處理線路

對(duì)于結(jié)構(gòu)化文件，您可以一次處理多組行（或記錄）。

def read_batches(file_path, batch_size=5):
with open(file_path, 'r') as file:
batch = []
for line in file:
batch.append(line.strip())
if len(batch) == batch_size:
yield batch
batch = []
if batch:
yield batch

# Example usage:
for batch in read_batches('cars.txt'):
process_batch(batch) # Replace with your processing logic

適用于： CSV 或日志等結(jié)構(gòu)化數(shù)據(jù)。

7.流處理

如果數(shù)據(jù)連續(xù)到達(dá)（例如日志或 API），請(qǐng)使用流處理。

import requests

def stream_data(url):
with requests.get(url, stream=True) as response:
for line in response.iter_lines():
process(line)

用例： 實(shí)時(shí)日志監(jiān)控或 API 數(shù)據(jù)流。

8. Dask 并行處理

對(duì)于海量數(shù)據(jù)集，可以考慮使用 Dask ，這是一個(gè)專為大數(shù)據(jù)并行計(jì)算而設(shè)計(jì)的庫。

import dask.dataframe as dd

df = dd.read_csv('large_dataset.csv')
result = df[df['column'] > 100].compute()

為什么選擇 Dask？ 通過將內(nèi)存不足的數(shù)據(jù)分塊處理，可以更好地處理這些數(shù)據(jù)。

9. PySpark 用于分布式處理

如果您的數(shù)據(jù)大小超出了單臺(tái)機(jī)器的容量，請(qǐng)使用 PySpark 進(jìn)行分布式處理。

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("LargeFileProcessing").getOrCreate()
df = spark.read.csv('large_dataset.csv')
df.filter(df['column'] > 100).show()

最適合： 需要集群級(jí)資源的大數(shù)據(jù)任務(wù)。

10. 特定格式的高效庫

對(duì)于特定文件類型，使用優(yōu)化庫：

關(guān)于大文件處理的有趣事實(shí)

應(yīng)避免的常見錯(cuò)誤

加載整個(gè)文件： 除非文件很小，否則避免使用 file.readlines() 。

忘記緩沖： 使用緩沖 I/O 實(shí)現(xiàn)更流暢的性能。

忽略邊緣情況： 始終處理諸如空行或無效格式之類的錯(cuò)誤。

到此這篇關(guān)于Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對(duì)比的文章就介紹到這了,更多相關(guān)Python讀寫Excel內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: