Python讀取大型數(shù)據(jù)文件的6種方式匯總

更新時間：2023年05月29日 09:54:20 作者：Python 集中營

在 Python 中，我們可以使用多種方法讀取大型數(shù)據(jù)文件，本文主要為大家介紹6個常用的Python讀取大型數(shù)據(jù)文件的方法，希望對大家有所幫助

1.讀取大型文本文件

在 Python 中，我們可以使用文件對象的迭代器來讀取大型文本文件。

這種方法可以一次讀取文件中的一行，然后處理它。

with?open('large_file.txt')?as?f:
????for?line?in?f:
????????#?處理每一行

在這個示例中，我們打開一個名為 large_file.txt 的文件，并使用 with 語句來確保在使用完文件后正確關閉它。

然后，我們使用 for 循環(huán)迭代文件對象，并使用 line 變量來存儲每個行。我們可以在循環(huán)中處理每一行，例如對每一行進行拆分或計算。

這種方法可以處理非常大的文本文件，因為它只讀取一行，并在處理完畢后釋放內(nèi)存。

2.讀取二進制文件

如果我們處理的是二進制文件，如圖像或視頻文件，我們可以使用 Python 的 memory-mapped 文件。

這種方法將文件映射到內(nèi)存中，從而使我們可以像訪問內(nèi)存一樣訪問文件。

import?mmap
with?open('large_binary_file.bin',?'r+b')?as?f:
????mmapped_file?=?mmap.mmap(f.fileno(),?0)
????#?對?mmapped_file?進行操作
????mmapped_file.close()

在這個示例中，我們打開一個名為 large_binary_file.bin 的二進制文件，并使用 mmap.mmap 函數(shù)將其映射到內(nèi)存中。

我們可以像訪問內(nèi)存一樣訪問文件，例如使用 mmapped_file[0] 來訪問文件的第一個字節(jié)。在處理完文件后，我們需要關閉文件以釋放內(nèi)存。

3.使用 Pandas 讀取大型數(shù)據(jù)文件

Pandas 是 Python 中最流行的數(shù)據(jù)處理庫之一，它提供了一種稱為 read_csv 的函數(shù)，可以讀取大型 CSV 文件并將其轉(zhuǎn)換為 Pandas DataFrame。

import?pandas?as?pd
#?讀取?CSV?文件
df?=?pd.read_csv('large_data.csv',?iterator=True,?chunksize=1000)
for?chunk?in?df:
????#?對每個?chunk?進行處理

在這個示例中，我們使用 read_csv 函數(shù)讀取一個名為 large_data.csv 的 CSV 文件，并將其轉(zhuǎn)換為 Pandas DataFrame。我們將 iterator 參數(shù)設置為 True，以便將文件分塊讀取。

然后，我們使用 chunksize 參數(shù)將文件分成大小為 1000 的塊，并將其迭代到 for 循環(huán)中。在循環(huán)中，我們可以使用 Pandas DataFrame 的函數(shù)來處理每個塊。

4.使用 Dask 讀取大型數(shù)據(jù)文件

Dask 是另一個流行的 Python 庫，可以處理大型數(shù)據(jù)集。它提供了一種稱為 dask.dataframe 的函數(shù)，可將大型數(shù)據(jù)集分成多個塊，并在每個塊上執(zhí)行操作。

import?dask.dataframe?as?dd
#?讀取?CSV?文件
df?=?dd.read_csv('large_data.csv')
#?對數(shù)據(jù)集進行操作
result?=?df.groupby('column_name').mean()
#?將結(jié)果保存到文件
result.to_csv('result.csv')

在這個示例中，我們使用 dask.dataframe 函數(shù)讀取一個名為 large_data.csv 的 CSV 文件，并將其轉(zhuǎn)換為 Dask DataFrame。

我們可以像處理 Pandas DataFrame 一樣處理 Dask DataFrame，例如使用 groupby 函數(shù)對數(shù)據(jù)集進行分組并計算平均值。

最后，我們使用 to_csv 函數(shù)將結(jié)果保存到文件。

5.使用 Hadoop 讀取大型數(shù)據(jù)文件

如果我們需要處理非常大的數(shù)據(jù)集，我們可以使用 Hadoop 分布式計算框架。Hadoop 可以將大型數(shù)據(jù)集分成多個塊，并在多個計算機上并行處理。

我們可以使用 Python 的 hdfs 庫來讀取和寫入 Hadoop 文件系統(tǒng)中的文件。

from?hdfs?import?InsecureClient
client?=?InsecureClient('http://localhost:50070')
#?讀取文件
with?client.read('/path/to/large_file.txt',?encoding='utf-8')?as?reader:
????for?line?in?reader:
????????#?對每一行進行處理

在這個示例中，我們使用 hdfs 庫連接到 Hadoop 文件系統(tǒng)，并使用 read 函數(shù)讀取文件。

我們可以像處理本地文件一樣處理 Hadoop 文件系統(tǒng)中的文件，例如使用 for 循環(huán)迭代文件的每一行。

如果需要寫入文件，則可以使用 client.write 函數(shù)將數(shù)據(jù)寫入文件。

6.使用 PySpark 讀取大型數(shù)據(jù)文件

PySpark 是 Python 中的 Spark API，它可以并行處理大型數(shù)據(jù)集。我們可以使用 PySpark 讀取和處理大型數(shù)據(jù)文件。

from?pyspark.sql?import?SparkSession
#?創(chuàng)建?SparkSession?對象
spark?=?SparkSession.builder.appName('LargeFile').getOrCreate()
#?讀取?CSV?文件
df?=?spark.read.csv('large_data.csv',?header=True,?inferSchema=True)
#?對數(shù)據(jù)集進行操作
result?=?df.groupby('column_name').mean()
#?將結(jié)果保存到文件
result.write.csv('result.csv')

在這個示例中，我們首先創(chuàng)建了一個名為 SparkSession 的對象。然后，我們使用 read.csv 函數(shù)讀取一個名為 large_data.csv 的 CSV 文件，并將其轉(zhuǎn)換為 PySpark DataFrame。

我們可以像處理 Pandas DataFrame 一樣處理 PySpark DataFrame，例如使用 groupby 函數(shù)對數(shù)據(jù)集進行分組并計算平均值。

最后，我們使用 write.csv 函數(shù)將結(jié)果保存到文件。

到此這篇關于Python讀取大型數(shù)據(jù)文件的6種方式匯總的文章就介紹到這了,更多相關Python讀取文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: