欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python高效處理大文件的方法詳解

 更新時(shí)間:2022年07月25日 14:14:22   作者:Awan  
在這篇文章中,我們將學(xué)習(xí)如何使用multiprocessing、joblib和tqdm?Python包減少大文件的處理時(shí)間。這是一個(gè)簡(jiǎn)單的教程,可以適用于任何文件、數(shù)據(jù)庫、圖像、視頻和音頻,感興趣的可以了解一下

為了進(jìn)行并行處理,我們將任務(wù)劃分為子單元。它增加了程序處理的作業(yè)數(shù)量,減少了整體處理時(shí)間。

例如,如果你正在處理一個(gè)大的CSV文件,你想修改一個(gè)單列。我們將把數(shù)據(jù)以數(shù)組的形式輸入函數(shù),它將根據(jù)可用的進(jìn)程數(shù)量,一次并行處理多個(gè)值。這些進(jìn)程是基于你的處理器內(nèi)核的數(shù)量。

在這篇文章中,我們將學(xué)習(xí)如何使用multiprocessing、joblib和tqdm Python包減少大文件的處理時(shí)間。這是一個(gè)簡(jiǎn)單的教程,可以適用于任何文件、數(shù)據(jù)庫、圖像、視頻和音頻。

開始

我們將使用來自 Kaggle 的 US Accidents (2016 - 2021) 數(shù)據(jù)集,它包括280萬條記錄和47個(gè)列。

我們將導(dǎo)入multiprocessing、joblib和tqdm用于并行處理,pandas用于數(shù)據(jù)導(dǎo)入,re、nltk和string用于文本處理。

# Parallel Computing
import multiprocessing as mp
from joblib import Parallel, delayed
from tqdm.notebook import tqdm
# Data Ingestion  
import pandas as pd
# Text Processing  
import re  
from nltk.corpus import stopwords
import string

在我們開始之前,讓我們通過加倍cpu_count()來設(shè)置n_workers。正如你所看到的,我們有8個(gè)workers。

n_workers = 2 * mp.cpu_count()
print(f"{n_workers} workers are available")
>>> 8 workers are available

下一步,我們將使用pandas read_csv函數(shù)讀取大型CSV文件。然后打印出dataframe的形狀、列的名稱和處理時(shí)間。

%%time
file_name="../input/us-accidents/US_Accidents_Dec21_updated.csv"
df = pd.read_csv(file_name)
print(f"Shape:{df.shape}\n\nColumn Names:\n{df.columns}\n")

輸出:

Shape:(2845342, 47)
Column Names:
Index(['ID', 'Severity', 'Start_Time', 'End_Time', 'Start_Lat', 'Start_Lng',
'End_Lat', 'End_Lng', 'Distance(mi)', 'Description', 'Number', 'Street',
'Side', 'City', 'County', 'State', 'Zipcode', 'Country', 'Timezone',
'Airport_Code', 'Weather_Timestamp', 'Temperature(F)', 'Wind_Chill(F)',
'Humidity(%)', 'Pressure(in)', 'Visibility(mi)', 'Wind_Direction',
'Wind_Speed(mph)', 'Precipitation(in)', 'Weather_Condition', 'Amenity',
'Bump', 'Crossing', 'Give_Way', 'Junction', 'No_Exit', 'Railway',
'Roundabout', 'Station', 'Stop', 'Traffic_Calming', 'Traffic_Signal',
'Turning_Loop', 'Sunrise_Sunset', 'Civil_Twilight', 'Nautical_Twilight',
'Astronomical_Twilight'],
dtype='object')
CPU times: user 33.9 s, sys: 3.93 s, total: 37.9 s
Wall time: 46.9 s

處理文本

clean_text是一個(gè)用于處理文本的簡(jiǎn)單函數(shù)。我們將使用nltk.copus獲得英語停止詞,并使用它來過濾掉文本行中的停止詞。之后,我們將刪除句子中的特殊字符和多余的空格。它將成為確定串行、并行和批處理的處理時(shí)間的基準(zhǔn)函數(shù)。

def clean_text(text):  
 # Remove stop words
 stops = stopwords.words("english")
  text = " ".join([word for word in text.split() if word  
not in stops])
 # Remove Special Characters
 text = text.translate(str.maketrans('', '', string.punctuation))
 # removing the extra spaces
 text = re.sub(' +',' ', text)
 return text

串行處理

對(duì)于串行處理,我們可以使用pandas的.apply()函數(shù),但是如果你想看到進(jìn)度條,你需要為pandas激活tqdm,然后使用.progress_apply()函數(shù)。

我們將處理280萬條記錄,并將結(jié)果保存回 “Description” 列中。

%%time
tqdm.pandas()
df['Description'] = df['Description'].progress_apply(clean_text)

輸出

高端處理器串行處理280萬行花了9分5秒。

100%          2845342/2845342 [09:05<00:00, 5724.25it/s]
CPU times: user 8min 14s, sys: 53.6 s, total: 9min 7s
Wall time: 9min 5s

多進(jìn)程處理

有多種方法可以對(duì)文件進(jìn)行并行處理,我們將了解所有這些方法。multiprocessing是一個(gè)內(nèi)置的python包,通常用于并行處理大型文件。

我們將創(chuàng)建一個(gè)有8個(gè)workers的多處理池,并使用map函數(shù)來啟動(dòng)進(jìn)程。為了顯示進(jìn)度條,我們將使用tqdm。

map函數(shù)由兩部分組成。第一個(gè)部分需要函數(shù),第二個(gè)部分需要一個(gè)參數(shù)或參數(shù)列表。

%%time
p = mp.Pool(n_workers)  
df['Description'] = p.map(clean_text,tqdm(df['Description']))

輸出

我們的處理時(shí)間幾乎提高了3倍。處理時(shí)間從9分5秒下降到3分51秒。

100%          2845342/2845342 [02:58<00:00, 135646.12it/s]
CPU times: user 5.68 s, sys: 1.56 s, total: 7.23 s
Wall time: 3min 51s

并行處理

我們現(xiàn)在將學(xué)習(xí)另一個(gè)Python包來執(zhí)行并行處理。在本節(jié)中,我們將使用joblib的Parallel和delayed來復(fù)制map函數(shù)。

  • Parallel需要兩個(gè)參數(shù):n_job = 8和backend = multiprocessing。
  • 然后,我們將在delayed函數(shù)中加入clean_text。
  • 創(chuàng)建一個(gè)循環(huán),每次輸入一個(gè)值。

下面的過程是相當(dāng)通用的,你可以根據(jù)你的需要修改你的函數(shù)和數(shù)組。我曾用它來處理成千上萬的音頻和視頻文件,沒有任何問題。

建議:使用 "try: "和 "except: "添加異常處理。

def text_parallel_clean(array):
 result = Parallel(n_jobs=n_workers,backend="multiprocessing")(
 delayed(clean_text)
  (text)  
 for text in tqdm(array)
 )
 return result

在text_parallel_clean()中添加“Description”列。

%%time
df['Description'] = text_parallel_clean(df['Description'])

輸出

我們的函數(shù)比多進(jìn)程處理Pool多花了13秒。即使如此,并行處理也比串行處理快4分59秒。

100%          2845342/2845342 [04:03<00:00, 10514.98it/s]
CPU times: user 44.2 s, sys: 2.92 s, total: 47.1 s
Wall time: 4min 4s

并行批量處理

有一個(gè)更好的方法來處理大文件,就是把它們分成若干批,然后并行處理。讓我們從創(chuàng)建一個(gè)批處理函數(shù)開始,該函數(shù)將在單一批次的值上運(yùn)行clean_function。

批量處理函數(shù)

def proc_batch(batch):
 return [
 clean_text(text)
 for text in batch
 ]

將文件分割成批

下面的函數(shù)將根據(jù)workers的數(shù)量把文件分成多個(gè)批次。在我們的例子中,我們得到8個(gè)批次。

def batch_file(array,n_workers):
 file_len = len(array)
 batch_size = round(file_len / n_workers)
 batches = [
 array[ix:ix+batch_size]
 for ix in tqdm(range(0, file_len, batch_size))
 ]
 return batches
batches = batch_file(df['Description'],n_workers)
>>> 100% 8/8 [00:00<00:00, 280.01it/s]

運(yùn)行并行批處理

最后,我們將使用Parallel和delayed來處理批次。

%%time
batch_output = Parallel(n_jobs=n_workers,backend="multiprocessing")(
 delayed(proc_batch)
  (batch)  
 for batch in tqdm(batches)
 )
df['Description'] = [j for i in batch_output for j in i]

輸出

我們已經(jīng)改善了處理時(shí)間。這種技術(shù)在處理復(fù)雜數(shù)據(jù)和訓(xùn)練深度學(xué)習(xí)模型方面非常有名。

100%          8/8 [00:00<00:00, 2.19it/s]
CPU times: user 3.39 s, sys: 1.42 s, total: 4.81 s
Wall time: 3min 56s

tqdm 并發(fā)

tqdm將多處理帶到了一個(gè)新的水平。它簡(jiǎn)單而強(qiáng)大。

process_map需要:

  • 函數(shù)名稱
  • Dataframe 列名
  • max_workers
  • chucksize與批次大小類似。我們將用workers的數(shù)量來計(jì)算批處理的大小,或者你可以根據(jù)你的喜好來添加這個(gè)數(shù)字。
%%time
from tqdm.contrib.concurrent import process_map
batch = round(len(df)/n_workers)
df['Description'] = process_map(clean_text,df['Description'], max_workers=n_workers, chunksize=batch)

輸出

通過一行代碼,我們得到了最好的結(jié)果:

100%          2845342/2845342 [03:48<00:00, 1426320.93it/s]
CPU times: user 7.32 s, sys: 1.97 s, total: 9.29 s
Wall time: 3min 51s

結(jié)論

我們需要找到一個(gè)平衡點(diǎn),它可以是串行處理,并行處理,或批處理。如果你正在處理一個(gè)較小的、不太復(fù)雜的數(shù)據(jù)集,并行處理可能會(huì)適得其反。

在這個(gè)教程中,我們已經(jīng)了解了各種處理大文件的Python包,它們?cè)试S我們對(duì)數(shù)據(jù)函數(shù)進(jìn)行并行處理。

如果你只處理一個(gè)表格數(shù)據(jù)集,并且想提高處理性能,那么建議你嘗試Dask、datatable和RAPIDS。

到此這篇關(guān)于Python高效處理大文件的方法詳解的文章就介紹到這了,更多相關(guān)Python處理大文件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python中讓自定義的類使用加號(hào)"+"

    python中讓自定義的類使用加號(hào)"+"

    這篇文章主要介紹了python中讓自定義的類使用加號(hào)"+",如果對(duì)兩個(gè)對(duì)象直接“+”肯定是不行的,因?yàn)檫€沒有對(duì)CartoonImage類重載加法運(yùn)算符__add__(),下文小編舉例形式講解該內(nèi)容,需要的下伙伴可以參考一下
    2022-03-03
  • python在屏幕上點(diǎn)擊特定按鈕或圖像效果實(shí)例

    python在屏幕上點(diǎn)擊特定按鈕或圖像效果實(shí)例

    這篇文章主要給大家介紹了關(guān)于python在屏幕上點(diǎn)擊特定按鈕或圖像效果的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用python具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2022-09-09
  • 快速解決pyqt5窗體關(guān)閉后子線程不同時(shí)退出的問題

    快速解決pyqt5窗體關(guān)閉后子線程不同時(shí)退出的問題

    今天小編就為大家分享一篇快速解決pyqt5窗體關(guān)閉后子線程不同時(shí)退出的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06
  • 一文詳解Python中的super?函數(shù)

    一文詳解Python中的super?函數(shù)

    這篇文章主要介紹了一文了解Python中的super?函數(shù),文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的朋友可以參考一下
    2022-09-09
  • Python繪制移動(dòng)均線方法 含源代碼

    Python繪制移動(dòng)均線方法 含源代碼

    上一篇文章我們介紹了Python繪制專業(yè)的K線圖,講解了數(shù)據(jù)獲取、K線圖繪制及成交量繪制等內(nèi)容。本篇將在上一篇的基礎(chǔ)上,繼續(xù)講解移動(dòng)均線的繪制,需要的朋友可以參考下
    2021-10-10
  • 套娃式文件夾如何通過Python批量處理

    套娃式文件夾如何通過Python批量處理

    這篇文章主要介紹了套娃式文件夾如何通過Python批量處理,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-08-08
  • Python 將字符串轉(zhuǎn)換為列表的7種方法匯總

    Python 將字符串轉(zhuǎn)換為列表的7種方法匯總

    這篇文章主要介紹了Python 將字符串轉(zhuǎn)換為列表的7種方法匯總,在本文中,我們將嘗試將給定的字符串轉(zhuǎn)換為列表,其中根據(jù)用戶的選擇,遇到空格或任何其他特殊字符,為此,我們?cè)趕tring中使用split()方法,需要的朋友可以參考下
    2023-11-11
  • 詳解Python字符串對(duì)象的實(shí)現(xiàn)

    詳解Python字符串對(duì)象的實(shí)現(xiàn)

    本文介紹了 python 內(nèi)部是如何管理字符串對(duì)象,以及字符串查找操作是如何實(shí)現(xiàn)的,感興趣的小伙伴們可以參考一下
    2015-12-12
  • Numpy(Pandas)刪除全為零的列的方法

    Numpy(Pandas)刪除全為零的列的方法

    這篇文章主要介紹了Numpy(Pandas)刪除全為零的列的方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-09-09
  • Django的ListView超詳細(xì)用法(含分頁paginate)

    Django的ListView超詳細(xì)用法(含分頁paginate)

    這篇文章主要介紹了Django的ListView超詳細(xì)用法(含分頁paginate),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-05-05

最新評(píng)論