欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對(duì)比

 更新時(shí)間:2025年09月10日 15:53:53   作者:@Python大數(shù)據(jù)分析  
Python處理Excel大數(shù)據(jù)有很多方式,不過Excel撐死才104萬行,能有多大的數(shù)據(jù),本文主要介紹了三種常見方式,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下

有人問Python怎么處理大數(shù)據(jù)的Excel文件?

Python處理Excel大數(shù)據(jù)有很多方式,不過Excel撐死才104萬行,能有多大的數(shù)據(jù),一般用pandas讀取就可以,pandas有專門的分塊讀取模式,比如說每次只讀取1萬行用于處理,這樣就不會(huì)太占用內(nèi)存。

pandas read_excel方法有專門的參數(shù)chunksize用于設(shè)置分塊讀取,代碼示例如下:

import pandas as pd

# 讀取'test_data.xlsx'大文件

# 分塊讀取以減少內(nèi)存占用
chunk_size = 10000
chunks = pd.read_excel('test_data.xlsx', chunksize=chunk_size)

# 對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行處理
processed_data = []
for i, chunk in enumerate(chunks):
    這里代碼是對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行處理......

讀取Excel能用pandas盡量用pandas,但如果Excel文件非常大,已經(jīng)遠(yuǎn)大于內(nèi)存容量了,或者你相對(duì)Excel有更多其他處理,比如修改格式等,則可以用OpenPyXL。

它有專門的流式讀取方式(只讀模式read-only mode)來處理Excel,底層原理是OpenPyXL不會(huì)加載整個(gè)Excel文件到內(nèi)存,而是保存為一個(gè)邏輯對(duì)象,在用的時(shí)候才流式去讀取它。

from openpyxl import load_workbook

# 使用只讀模式讀取大型Excel文件
read_wb = load_workbook('large_data.xlsx', read_only=True)
read_ws = read_wb.active

# 以流式方式逐行讀取、處理和寫入
row_count = 0
for row in read_ws.iter_rows(min_row=2): 
    這里代碼是對(duì)每一行進(jìn)行處理......

OpenPyXL也可以流式寫入Excel,原理同讀取一樣,采用write_only模式。

另外一個(gè)可以大規(guī)模寫入數(shù)據(jù),不占用內(nèi)存的是庫是XlsxWriter,它有個(gè)“常量?jī)?nèi)存”模式,支持每寫入一行,就在內(nèi)存中清除上一行占用的空間,意味著內(nèi)存只存有一行數(shù)據(jù),永遠(yuǎn)是夠用的。

import xlsxwriter

# 創(chuàng)建一個(gè)文件名,用于寫入數(shù)據(jù)
file_name = 'large_data_constant_memory.xlsx'

# 創(chuàng)建一個(gè)工作簿對(duì)象,并啟用常量?jī)?nèi)存模式
workbook = xlsxwriter.Workbook(file_name, {'constant_memory': True})
worksheet = workbook.add_worksheet()
這里可以寫入大量數(shù)據(jù),不會(huì)占用內(nèi)存......

除了以上幾個(gè)庫,還有像Dask、Polars、Modin、Rapids等庫可以處理Excel大數(shù)據(jù)集,都是類似pandas的操作模式,但速度會(huì)快很多,可以試試。

方法補(bǔ)充

Python 處理大文件的 10 種方法

用 Python 處理大型文本文件可能會(huì)讓人感到不知所措。當(dāng)文件大小達(dá)到 GB 級(jí)時(shí),嘗試一次性將它們?nèi)考虞d到內(nèi)存中可能會(huì)導(dǎo)致程序崩潰。不過不用擔(dān)心——Python 提供了多種策略來高效處理此類文件,而不會(huì)耗盡內(nèi)存或性能。

1. 使用迭代器逐行讀取

逐行讀取文件可以確保每次只有一小部分內(nèi)容加載到內(nèi)存中。具體操作如下:

with open('large_file.txt', 'r') as file:
for line in file:
process(line) # Replace with your processing function

2. 分塊閱讀

有時(shí),你需要比逐行讀取更大的靈活性。以固定大小的塊讀取文件可以讓你控制一次處理的數(shù)據(jù)量。

def read_file_in_chunks(file_path, chunk_size=1024):
with open(file_path, 'r') as file:
while True:
chunk = file.read(chunk_size)
if not chunk:
break
process(chunk) # Replace with your processing function

3.緩沖文件讀取

緩沖讀取通過以更大的內(nèi)部塊處理文件來提供更高級(jí)別的優(yōu)化:

with open('large_file.txt', 'rb', buffering=10 * 1024 * 1024) as file: # 10 MB buffer
for line in file:
process(line)

為什么要使用它? 減少頻繁磁盤 I/O 操作的開銷。

4. 內(nèi)存映射文件(mmap)

內(nèi)存映射允許 Python 直接在內(nèi)存中將文件視為字節(jié)數(shù)組。這徹底改變了隨機(jī)訪問的格局。

from mmap import mmap

with open('large_file.txt', 'r') as file:
with mmap(file.fileno(), length=0, access=mmap.ACCESS_READ) as mm:
for line in mm:
process(line.decode('utf-8'))

5. 使用生成器

生成器允許您延遲處理數(shù)據(jù),僅加載必要的數(shù)據(jù)。

def generate_lines(file_path):
with open(file_path, 'r') as file:
for line in file:
yield line

for line in generate_lines('large_file.txt'):
process(line)

為什么它很棒: 通過一次處理一行來減少內(nèi)存使用量。

6. 批量處理線路

對(duì)于結(jié)構(gòu)化文件,您可以一次處理多組行(或記錄)。

def read_batches(file_path, batch_size=5):
with open(file_path, 'r') as file:
batch = []
for line in file:
batch.append(line.strip())
if len(batch) == batch_size:
yield batch
batch = []
if batch:
yield batch

# Example usage:
for batch in read_batches('cars.txt'):
process_batch(batch) # Replace with your processing logic

適用于: CSV 或日志等結(jié)構(gòu)化數(shù)據(jù)。

7.流處理

如果數(shù)據(jù)連續(xù)到達(dá)(例如日志或 API),請(qǐng)使用流處理。

import requests

def stream_data(url):
with requests.get(url, stream=True) as response:
for line in response.iter_lines():
process(line)

用例: 實(shí)時(shí)日志監(jiān)控或 API 數(shù)據(jù)流。

8. Dask 并行處理

對(duì)于海量數(shù)據(jù)集,可以考慮使用 Dask ,這是一個(gè)專為大數(shù)據(jù)并行計(jì)算而設(shè)計(jì)的庫。

import dask.dataframe as dd

df = dd.read_csv('large_dataset.csv')
result = df[df['column'] > 100].compute()

為什么選擇 Dask? 通過將內(nèi)存不足的數(shù)據(jù)分塊處理,可以更好地處理這些數(shù)據(jù)。

9. PySpark 用于分布式處理

如果您的數(shù)據(jù)大小超出了單臺(tái)機(jī)器的容量,請(qǐng)使用 PySpark 進(jìn)行分布式處理。

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("LargeFileProcessing").getOrCreate()
df = spark.read.csv('large_dataset.csv')
df.filter(df['column'] > 100).show()

最適合: 需要集群級(jí)資源的大數(shù)據(jù)任務(wù)。

10. 特定格式的高效庫

對(duì)于特定文件類型,使用優(yōu)化庫:

關(guān)于大文件處理的有趣事實(shí)

應(yīng)避免的常見錯(cuò)誤

加載整個(gè)文件: 除非文件很小,否則避免使用 file.readlines() 。

忘記緩沖: 使用緩沖 I/O 實(shí)現(xiàn)更流暢的性能。

忽略邊緣情況: 始終處理諸如空行或無效格式之類的錯(cuò)誤。

到此這篇關(guān)于Python讀寫Excel大數(shù)據(jù)文件的3種有效方式對(duì)比的文章就介紹到這了,更多相關(guān)Python讀寫Excel內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python通過Pillow實(shí)現(xiàn)圖片對(duì)比

    Python通過Pillow實(shí)現(xiàn)圖片對(duì)比

    這篇文章主要介紹了Python Pillow實(shí)現(xiàn)圖片對(duì)比,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-04-04
  • python新手經(jīng)常遇到的17個(gè)錯(cuò)誤分析

    python新手經(jīng)常遇到的17個(gè)錯(cuò)誤分析

    這篇文章主要介紹了python新手經(jīng)常遇到的17個(gè)錯(cuò)誤分析,需要的朋友可以參考下
    2014-07-07
  • 獲取Pytorch中間某一層權(quán)重或者特征的例子

    獲取Pytorch中間某一層權(quán)重或者特征的例子

    今天小編就為大家分享一篇獲取Pytorch中間某一層權(quán)重或者特征的例子,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-08-08
  • Xadmin+rules實(shí)現(xiàn)多選行權(quán)限方式(級(jí)聯(lián)效果)

    Xadmin+rules實(shí)現(xiàn)多選行權(quán)限方式(級(jí)聯(lián)效果)

    這篇文章主要介紹了Xadmin+rules實(shí)現(xiàn)多選行權(quán)限方式(級(jí)聯(lián)效果),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • python卸載后再次安裝遇到的問題解決

    python卸載后再次安裝遇到的問題解決

    這篇文章主要給大家介紹了關(guān)于python卸載后再次安裝遇到問題解決的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用python具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • python re.match函數(shù)的具體使用

    python re.match函數(shù)的具體使用

    本文主要介紹了python re.match函數(shù)的具體使用,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-02-02
  • Pytorch evaluation每次運(yùn)行結(jié)果不同的解決

    Pytorch evaluation每次運(yùn)行結(jié)果不同的解決

    今天小編就為大家分享一篇Pytorch evaluation每次運(yùn)行結(jié)果不同的解決,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • python實(shí)現(xiàn)點(diǎn)擊按鈕修改數(shù)據(jù)的方法

    python實(shí)現(xiàn)點(diǎn)擊按鈕修改數(shù)據(jù)的方法

    今天小編就為大家分享一篇python實(shí)現(xiàn)點(diǎn)擊按鈕修改數(shù)據(jù)的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07
  • Linux下python制作名片示例

    Linux下python制作名片示例

    這篇文章主要介紹了Linux下python制作名片示例的相關(guān)資料,需要的朋友可以參考下
    2018-07-07
  • python?tkinter中的Frame控件用法詳解

    python?tkinter中的Frame控件用法詳解

    Tkinter中的Frame控件是一個(gè)用于組織和管理其他控件的容器,它可以將其他控件放置在自己內(nèi)部,用于創(chuàng)建更復(fù)雜的用戶界面,要?jiǎng)?chuàng)建一個(gè)Frame控件,可以使用Tkinter的Frame類,所以本文就通過一個(gè)簡(jiǎn)單的示例給大家介紹一下
    2023-08-08

最新評(píng)論