Python實(shí)現(xiàn)高效地讀寫(xiě)大型文件
上一篇給大家介紹如何使用 Python 進(jìn)行文件讀寫(xiě)操作的方法,問(wèn)題來(lái)了,如何讀寫(xiě)的是大型文件,有沒(méi)有什么方法來(lái)提高效率呢,不要捉急,這一篇來(lái)聊聊如何在Python中高效地讀寫(xiě)大型文件。
以下是在 Python 中高效讀寫(xiě)大型文件的一些方法:
一、逐行讀取大型文件
def read_large_file_line_by_line(file_path): with open(file_path, 'r') as file: for line in file: # 處理每一行的數(shù)據(jù),這里僅打印 print(line.strip())
with open(file_path, 'r') as file
:使用with
語(yǔ)句打開(kāi)文件,確保文件在使用完畢后自動(dòng)關(guān)閉。for line in file
:文件對(duì)象是可迭代的,逐行讀取文件內(nèi)容,避免一次性將整個(gè)文件讀入內(nèi)存,節(jié)省內(nèi)存空間,適用于大型文本文件。
二、分塊讀取大型文件
def read_large_file_in_chunks(file_path, chunk_size=1024): with open(file_path, 'r') as file: while True: data = file.read(chunk_size) if not data: break # 處理讀取到的數(shù)據(jù)塊,這里僅打印 print(data)
file.read(chunk_size)
:每次讀取指定大?。?code>chunk_size)的數(shù)據(jù)塊,循環(huán)讀取直到文件結(jié)束。chunk_size
可以根據(jù)實(shí)際情況調(diào)整,一般根據(jù)文件大小和可用內(nèi)存來(lái)選擇合適的值。
三、使用 mmap 模塊進(jìn)行內(nèi)存映射文件操作(適用于大文件)
import mmap def read_large_file_with_mmap(file_path): with open(file_path, 'r') as file: with mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ) as mmap_obj: # 處理映射的數(shù)據(jù),這里僅打印 print(mmap_obj.readline())
mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ)
:將文件映射到內(nèi)存中,實(shí)現(xiàn)文件的高效讀寫(xiě),fileno()
方法獲取文件描述符。- 可以像操作字符串一樣操作
mmap_obj
,避免了頻繁的文件 I/O 操作,提高性能。
四、使用 pandas 分塊處理大型 CSV 文件(適用于 CSV 文件)
import pandas as pd def read_large_csv_in_chunks(csv_file_path): chunk_size = 100000 # 每塊的行數(shù) for chunk in pd.read_csv(csv_file_path, chunksize=chunk_size): # 處理數(shù)據(jù)塊,這里僅打印 print(chunk)
pd.read_csv(csv_file_path, chunksize=chunk_size)
:將 CSV 文件按塊讀取,chunksize
為每塊的行數(shù)。- 可以對(duì)每個(gè)
chunk
進(jìn)行數(shù)據(jù)處理,如數(shù)據(jù)清洗、分析等操作,避免一次性加載整個(gè)文件。
五、使用 numpy 分塊處理大型二進(jìn)制文件(適用于二進(jìn)制文件)
import numpy as np def read_large_binary_in_chunks(binary_file_path, chunk_size=1024): with open(binary_file_path, 'rb') as file: while True: data = np.fromfile(file, dtype=np.float32, count=chunk_size) if data.size == 0: break # 處理數(shù)據(jù)塊,這里僅打印 print(data)
np.fromfile(file, dtype=np.float32, count=chunk_size)
:從文件中讀取二進(jìn)制數(shù)據(jù),dtype
為數(shù)據(jù)類型,count
為元素?cái)?shù)量。- 可以根據(jù)文件的存儲(chǔ)數(shù)據(jù)類型調(diào)整
dtype
,按塊讀取二進(jìn)制文件。
六、使用 itertools 模塊進(jìn)行迭代處理(適用于文本文件)
import itertools def read_large_file_with_itertools(file_path, chunk_size=1024): with open(file_path, 'r') as file: for chunk in itertools.zip_longest(*[iter(file)]*chunk_size): chunk = [line.strip() for line in chunk if line] # 處理數(shù)據(jù)塊,這里僅打印 print(chunk)
itertools.zip_longest(*[iter(file)]*chunk_size)
:將文件迭代器分組,每組 chunk_size
行,方便分塊處理。
七、使用 linecache 模塊逐行讀取大型文件(適用于文本文件)
import linecache def read_large_file_with_linecache(file_path, line_number): line = linecache.getline(file_path, line_number) # 處理指定行的數(shù)據(jù),這里僅打印 print(line.strip())
linecache.getline(file_path, line_number)
:從文件中獲取指定行的數(shù)據(jù),適用于只需要讀取文件中某些行的情況,避免讀取整個(gè)文件。
總結(jié)
在處理大型文件時(shí),根據(jù)文件類型和操作需求,可靈活使用上述方法,避免一次性將整個(gè)文件加載到內(nèi)存中,從而提高程序的性能和穩(wěn)定性。同時(shí),可以結(jié)合不同的模塊和函數(shù),實(shí)現(xiàn)復(fù)雜的數(shù)據(jù)處理和分析任務(wù)。好了,趕快收藏起來(lái)吧,實(shí)際工作中你一定會(huì)用得到。
到此這篇關(guān)于Python實(shí)現(xiàn)高效地讀寫(xiě)大型文件的文章就介紹到這了,更多相關(guān)Python讀寫(xiě)大型文件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
django數(shù)據(jù)模型(Model)的字段類型解析
這篇文章主要介紹了django數(shù)據(jù)模型(Model)的字段類型,文中給大家提到了django數(shù)據(jù)模型on_delete, db_constraint的使用,需要的朋友可以參考下2019-12-12詳解從Django Rest Framework響應(yīng)中刪除空字段
這篇文章主要介紹了詳解從Django Rest Framework響應(yīng)中刪除空字段,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2019-01-01python實(shí)現(xiàn)按任意鍵繼續(xù)執(zhí)行程序
本文給大家分享的是如何使用Python腳本實(shí)現(xiàn)按任意鍵繼續(xù)執(zhí)行程序的代碼,非常的簡(jiǎn)單實(shí)用,有需要的小伙伴可以參考下2016-12-12Python?Pandas實(shí)現(xiàn)將嵌套JSON數(shù)據(jù)轉(zhuǎn)換DataFrame
對(duì)于復(fù)雜的JSON數(shù)據(jù)進(jìn)行分析時(shí),通常的做法是將JSON數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為Pandas?DataFrame,所以本文就來(lái)看看將嵌套JSON數(shù)據(jù)轉(zhuǎn)換為Pandas?DataFrame的具體方法吧2024-01-01python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù)
大家好,本篇文章主要講的是python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù),感興趣的同學(xué)趕快來(lái)看一看吧,對(duì)你有幫助的話記得收藏一下2022-02-02Python交換字典鍵值對(duì)的四種方法實(shí)例
字典中有成對(duì)出現(xiàn)的鍵和值,但是字典中的鍵值對(duì)不是都能修改的,只有值才能修改,下面這篇文章主要給大家介紹了關(guān)于Python交換字典鍵值對(duì)的四種方法,需要的朋友可以參考下2022-12-12