Python實現(xiàn)高效地讀寫大型文件
上一篇給大家介紹如何使用 Python 進行文件讀寫操作的方法,問題來了,如何讀寫的是大型文件,有沒有什么方法來提高效率呢,不要捉急,這一篇來聊聊如何在Python中高效地讀寫大型文件。
以下是在 Python 中高效讀寫大型文件的一些方法:
一、逐行讀取大型文件
def read_large_file_line_by_line(file_path): with open(file_path, 'r') as file: for line in file: # 處理每一行的數(shù)據(jù),這里僅打印 print(line.strip())
with open(file_path, 'r') as file
:使用with
語句打開文件,確保文件在使用完畢后自動關閉。for line in file
:文件對象是可迭代的,逐行讀取文件內(nèi)容,避免一次性將整個文件讀入內(nèi)存,節(jié)省內(nèi)存空間,適用于大型文本文件。
二、分塊讀取大型文件
def read_large_file_in_chunks(file_path, chunk_size=1024): with open(file_path, 'r') as file: while True: data = file.read(chunk_size) if not data: break # 處理讀取到的數(shù)據(jù)塊,這里僅打印 print(data)
file.read(chunk_size)
:每次讀取指定大?。?code>chunk_size)的數(shù)據(jù)塊,循環(huán)讀取直到文件結(jié)束。chunk_size
可以根據(jù)實際情況調(diào)整,一般根據(jù)文件大小和可用內(nèi)存來選擇合適的值。
三、使用 mmap 模塊進行內(nèi)存映射文件操作(適用于大文件)
import mmap def read_large_file_with_mmap(file_path): with open(file_path, 'r') as file: with mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ) as mmap_obj: # 處理映射的數(shù)據(jù),這里僅打印 print(mmap_obj.readline())
mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ)
:將文件映射到內(nèi)存中,實現(xiàn)文件的高效讀寫,fileno()
方法獲取文件描述符。- 可以像操作字符串一樣操作
mmap_obj
,避免了頻繁的文件 I/O 操作,提高性能。
四、使用 pandas 分塊處理大型 CSV 文件(適用于 CSV 文件)
import pandas as pd def read_large_csv_in_chunks(csv_file_path): chunk_size = 100000 # 每塊的行數(shù) for chunk in pd.read_csv(csv_file_path, chunksize=chunk_size): # 處理數(shù)據(jù)塊,這里僅打印 print(chunk)
pd.read_csv(csv_file_path, chunksize=chunk_size)
:將 CSV 文件按塊讀取,chunksize
為每塊的行數(shù)。- 可以對每個
chunk
進行數(shù)據(jù)處理,如數(shù)據(jù)清洗、分析等操作,避免一次性加載整個文件。
五、使用 numpy 分塊處理大型二進制文件(適用于二進制文件)
import numpy as np def read_large_binary_in_chunks(binary_file_path, chunk_size=1024): with open(binary_file_path, 'rb') as file: while True: data = np.fromfile(file, dtype=np.float32, count=chunk_size) if data.size == 0: break # 處理數(shù)據(jù)塊,這里僅打印 print(data)
np.fromfile(file, dtype=np.float32, count=chunk_size)
:從文件中讀取二進制數(shù)據(jù),dtype
為數(shù)據(jù)類型,count
為元素數(shù)量。- 可以根據(jù)文件的存儲數(shù)據(jù)類型調(diào)整
dtype
,按塊讀取二進制文件。
六、使用 itertools 模塊進行迭代處理(適用于文本文件)
import itertools def read_large_file_with_itertools(file_path, chunk_size=1024): with open(file_path, 'r') as file: for chunk in itertools.zip_longest(*[iter(file)]*chunk_size): chunk = [line.strip() for line in chunk if line] # 處理數(shù)據(jù)塊,這里僅打印 print(chunk)
itertools.zip_longest(*[iter(file)]*chunk_size)
:將文件迭代器分組,每組 chunk_size
行,方便分塊處理。
七、使用 linecache 模塊逐行讀取大型文件(適用于文本文件)
import linecache def read_large_file_with_linecache(file_path, line_number): line = linecache.getline(file_path, line_number) # 處理指定行的數(shù)據(jù),這里僅打印 print(line.strip())
linecache.getline(file_path, line_number)
:從文件中獲取指定行的數(shù)據(jù),適用于只需要讀取文件中某些行的情況,避免讀取整個文件。
總結(jié)
在處理大型文件時,根據(jù)文件類型和操作需求,可靈活使用上述方法,避免一次性將整個文件加載到內(nèi)存中,從而提高程序的性能和穩(wěn)定性。同時,可以結(jié)合不同的模塊和函數(shù),實現(xiàn)復雜的數(shù)據(jù)處理和分析任務。好了,趕快收藏起來吧,實際工作中你一定會用得到。
到此這篇關于Python實現(xiàn)高效地讀寫大型文件的文章就介紹到這了,更多相關Python讀寫大型文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
django數(shù)據(jù)模型(Model)的字段類型解析
這篇文章主要介紹了django數(shù)據(jù)模型(Model)的字段類型,文中給大家提到了django數(shù)據(jù)模型on_delete, db_constraint的使用,需要的朋友可以參考下2019-12-12詳解從Django Rest Framework響應中刪除空字段
這篇文章主要介紹了詳解從Django Rest Framework響應中刪除空字段,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-01-01python實現(xiàn)按任意鍵繼續(xù)執(zhí)行程序
本文給大家分享的是如何使用Python腳本實現(xiàn)按任意鍵繼續(xù)執(zhí)行程序的代碼,非常的簡單實用,有需要的小伙伴可以參考下2016-12-12Python?Pandas實現(xiàn)將嵌套JSON數(shù)據(jù)轉(zhuǎn)換DataFrame
對于復雜的JSON數(shù)據(jù)進行分析時,通常的做法是將JSON數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為Pandas?DataFrame,所以本文就來看看將嵌套JSON數(shù)據(jù)轉(zhuǎn)換為Pandas?DataFrame的具體方法吧2024-01-01python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù)
大家好,本篇文章主要講的是python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù),感興趣的同學趕快來看一看吧,對你有幫助的話記得收藏一下2022-02-02