欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實現(xiàn)高效地讀寫大型文件

 更新時間:2025年01月22日 08:37:43   作者:威哥愛編程  
Python如何讀寫的是大型文件,有沒有什么方法來提高效率呢,這篇文章就來和大家聊聊如何在Python中高效地讀寫大型文件,需要的可以了解下

上一篇給大家介紹如何使用 Python 進行文件讀寫操作的方法,問題來了,如何讀寫的是大型文件,有沒有什么方法來提高效率呢,不要捉急,這一篇來聊聊如何在Python中高效地讀寫大型文件。

以下是在 Python 中高效讀寫大型文件的一些方法:

一、逐行讀取大型文件

def read_large_file_line_by_line(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            # 處理每一行的數(shù)據(jù),這里僅打印
            print(line.strip())
  • with open(file_path, 'r') as file:使用 with 語句打開文件,確保文件在使用完畢后自動關閉。
  • for line in file:文件對象是可迭代的,逐行讀取文件內(nèi)容,避免一次性將整個文件讀入內(nèi)存,節(jié)省內(nèi)存空間,適用于大型文本文件。

二、分塊讀取大型文件

def read_large_file_in_chunks(file_path, chunk_size=1024):
    with open(file_path, 'r') as file:
        while True:
            data = file.read(chunk_size)
            if not data:
                break
            # 處理讀取到的數(shù)據(jù)塊,這里僅打印
            print(data)
  • file.read(chunk_size):每次讀取指定大?。?code>chunk_size)的數(shù)據(jù)塊,循環(huán)讀取直到文件結(jié)束。
  • chunk_size 可以根據(jù)實際情況調(diào)整,一般根據(jù)文件大小和可用內(nèi)存來選擇合適的值。

三、使用 mmap 模塊進行內(nèi)存映射文件操作(適用于大文件)

import mmap

def read_large_file_with_mmap(file_path):
    with open(file_path, 'r') as file:
        with mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ) as mmap_obj:
            # 處理映射的數(shù)據(jù),這里僅打印
            print(mmap_obj.readline())
  • mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ):將文件映射到內(nèi)存中,實現(xiàn)文件的高效讀寫,fileno() 方法獲取文件描述符。
  • 可以像操作字符串一樣操作 mmap_obj,避免了頻繁的文件 I/O 操作,提高性能。

四、使用 pandas 分塊處理大型 CSV 文件(適用于 CSV 文件)

import pandas as pd

def read_large_csv_in_chunks(csv_file_path):
    chunk_size = 100000  # 每塊的行數(shù)
    for chunk in pd.read_csv(csv_file_path, chunksize=chunk_size):
        # 處理數(shù)據(jù)塊,這里僅打印
        print(chunk)
  • pd.read_csv(csv_file_path, chunksize=chunk_size):將 CSV 文件按塊讀取,chunksize 為每塊的行數(shù)。
  • 可以對每個 chunk 進行數(shù)據(jù)處理,如數(shù)據(jù)清洗、分析等操作,避免一次性加載整個文件。

五、使用 numpy 分塊處理大型二進制文件(適用于二進制文件)

import numpy as np

def read_large_binary_in_chunks(binary_file_path, chunk_size=1024):
    with open(binary_file_path, 'rb') as file:
        while True:
            data = np.fromfile(file, dtype=np.float32, count=chunk_size)
            if data.size == 0:
                break
            # 處理數(shù)據(jù)塊,這里僅打印
            print(data)
  • np.fromfile(file, dtype=np.float32, count=chunk_size):從文件中讀取二進制數(shù)據(jù),dtype 為數(shù)據(jù)類型,count 為元素數(shù)量。
  • 可以根據(jù)文件的存儲數(shù)據(jù)類型調(diào)整 dtype,按塊讀取二進制文件。

六、使用 itertools 模塊進行迭代處理(適用于文本文件)

import itertools

def read_large_file_with_itertools(file_path, chunk_size=1024):
    with open(file_path, 'r') as file:
        for chunk in itertools.zip_longest(*[iter(file)]*chunk_size):
            chunk = [line.strip() for line in chunk if line]
            # 處理數(shù)據(jù)塊,這里僅打印
            print(chunk)

itertools.zip_longest(*[iter(file)]*chunk_size):將文件迭代器分組,每組 chunk_size 行,方便分塊處理。

七、使用 linecache 模塊逐行讀取大型文件(適用于文本文件)

import linecache

def read_large_file_with_linecache(file_path, line_number):
    line = linecache.getline(file_path, line_number)
    # 處理指定行的數(shù)據(jù),這里僅打印
    print(line.strip())

linecache.getline(file_path, line_number):從文件中獲取指定行的數(shù)據(jù),適用于只需要讀取文件中某些行的情況,避免讀取整個文件。

總結(jié)

在處理大型文件時,根據(jù)文件類型和操作需求,可靈活使用上述方法,避免一次性將整個文件加載到內(nèi)存中,從而提高程序的性能和穩(wěn)定性。同時,可以結(jié)合不同的模塊和函數(shù),實現(xiàn)復雜的數(shù)據(jù)處理和分析任務。好了,趕快收藏起來吧,實際工作中你一定會用得到。

到此這篇關于Python實現(xiàn)高效地讀寫大型文件的文章就介紹到這了,更多相關Python讀寫大型文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • Django集成CAS單點登錄的方法示例

    Django集成CAS單點登錄的方法示例

    這篇文章主要介紹了Django集成CAS單點登錄的方法示例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-06-06
  • django數(shù)據(jù)模型(Model)的字段類型解析

    django數(shù)據(jù)模型(Model)的字段類型解析

    這篇文章主要介紹了django數(shù)據(jù)模型(Model)的字段類型,文中給大家提到了django數(shù)據(jù)模型on_delete, db_constraint的使用,需要的朋友可以參考下
    2019-12-12
  • 詳解從Django Rest Framework響應中刪除空字段

    詳解從Django Rest Framework響應中刪除空字段

    這篇文章主要介紹了詳解從Django Rest Framework響應中刪除空字段,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2019-01-01
  • 利用python實現(xiàn)3種梯度下降算法

    利用python實現(xiàn)3種梯度下降算法

    梯度下降法是一種優(yōu)化算法,用于求解函數(shù)的最小值或最大值,它通過迭代的方式,沿著函數(shù)的梯度方向逐步調(diào)整參數(shù),以找到函數(shù)的極值點,本文給大家介紹了利用python實現(xiàn)3種梯度下降算法,需要的朋友可以參考下
    2023-12-12
  • python實現(xiàn)按任意鍵繼續(xù)執(zhí)行程序

    python實現(xiàn)按任意鍵繼續(xù)執(zhí)行程序

    本文給大家分享的是如何使用Python腳本實現(xiàn)按任意鍵繼續(xù)執(zhí)行程序的代碼,非常的簡單實用,有需要的小伙伴可以參考下
    2016-12-12
  • python接入使用百度翻譯流程

    python接入使用百度翻譯流程

    這篇文章主要介紹了利用Python接入百度翻譯的實現(xiàn)方法,從而實現(xiàn)中英文互譯的功能,文中的示例代碼講解詳細,感興趣的小伙伴可以了解一下
    2022-07-07
  • Python?Pandas實現(xiàn)將嵌套JSON數(shù)據(jù)轉(zhuǎn)換DataFrame

    Python?Pandas實現(xiàn)將嵌套JSON數(shù)據(jù)轉(zhuǎn)換DataFrame

    對于復雜的JSON數(shù)據(jù)進行分析時,通常的做法是將JSON數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為Pandas?DataFrame,所以本文就來看看將嵌套JSON數(shù)據(jù)轉(zhuǎn)換為Pandas?DataFrame的具體方法吧
    2024-01-01
  • python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù)

    python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù)

    大家好,本篇文章主要講的是python解析Chrome瀏覽器歷史瀏覽記錄和收藏夾數(shù)據(jù),感興趣的同學趕快來看一看吧,對你有幫助的話記得收藏一下
    2022-02-02
  • Python字符串格式化輸出代碼實例

    Python字符串格式化輸出代碼實例

    這篇文章主要介紹了Python字符串格式化輸出代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-11-11
  • Python交換字典鍵值對的四種方法實例

    Python交換字典鍵值對的四種方法實例

    字典中有成對出現(xiàn)的鍵和值,但是字典中的鍵值對不是都能修改的,只有值才能修改,下面這篇文章主要給大家介紹了關于Python交換字典鍵值對的四種方法,需要的朋友可以參考下
    2022-12-12

最新評論