快捷導(dǎo)航

幾行代碼讓 Python 函數(shù)執(zhí)行快 30 倍

更新時間：2022年01月24日 10:30:39 作者：野客

Python 編程語言，與其他流行編程語言相比主要缺點是它的動態(tài)特性和多功能屬性拖慢了速度表現(xiàn)。Python 代碼是在運行時被解釋的，而不是在編譯時被編譯為原生代碼。在本文中，我們將討論如何用多處理模塊并行執(zhí)行自定義 Python 函數(shù)，并進一步對比運行時間指標(biāo)。

Python 是一種流行的編程語言，也是數(shù)據(jù)科學(xué)社區(qū)中最受歡迎的語言。與其他流行編程語言相比，Python 的主要缺點是它的動態(tài)特性和多功能屬性拖慢了速度表現(xiàn)。Python 代碼是在運行時被解釋的，而不是在編譯時被編譯為原生代碼。

1、Python 多線程處理的基本指南

C 語言的執(zhí)行速度比 Python 代碼快 10 到 100 倍。但如果對比開發(fā)速度的話，Python 比 C 語言要快。對于數(shù)據(jù)科學(xué)研究來說，開發(fā)速度遠比運行時性能更重要。由于存在大量 API、框架和包，Python 更受數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師的青睞，只是它在性能優(yōu)化方面落后太多了。

2、多處理入門

考慮一個單核心 CPU，如果它被同時分配多個任務(wù)，就必須不斷地中斷當(dāng)前執(zhí)行的任務(wù)并切換到下一個任務(wù)才能保持所有進程正常運行。對于多核處理器來說，CPU 可以在不同內(nèi)核中同時執(zhí)行多個任務(wù)，這一概念被稱為并行處理。

3、它為什么如此重要？

數(shù)據(jù)整理、特征工程和數(shù)據(jù)探索都是數(shù)據(jù)科學(xué)模型開發(fā)管道中的重要元素。在輸入機器學(xué)習(xí)模型之前，原始數(shù)據(jù)需要做工程處理。對于較小的數(shù)據(jù)集來說，執(zhí)行過程只需幾秒鐘就能完成；但對于較大的數(shù)據(jù)集而言，這項任務(wù)就比較繁重了。

并行處理是提高 Python 程序性能的一種有效方法。Python 有一個多處理模塊，讓我們能夠跨 CPU 的不同內(nèi)核并行執(zhí)行程序。

4、實現(xiàn)

我們將使用來自 multiprocessing 模塊的 Pool 類，針對多個輸入值并行執(zhí)行一個函數(shù)。這個概念稱為數(shù)據(jù)并行性，它是 Pool 類的主要目標(biāo)。

我將使用從 Kaggle 下載的 Quora 問題對相似性數(shù)據(jù) 集來演示這個模塊。

上述數(shù)據(jù)集包含了很多在 Quora 平臺上提出的文本問題。我將在一個 Python 函數(shù)上執(zhí)行多處理模塊，這個函數(shù)通過刪除停用詞、刪除 HTML 標(biāo)簽、刪除標(biāo)點符號、詞干提取等過程來處理文本數(shù)據(jù)。

preprocess() 就是執(zhí)行上述文本處理步驟的函數(shù)。

可以在這里找到托管在我的 GitHub 上的函數(shù) preprocess() 的代碼片段。
現(xiàn)在，我們使用 multiprocessing 模塊中的 Pool 類為數(shù)據(jù)集的不同塊并行執(zhí)行該函數(shù)。數(shù)據(jù)集的每個塊都將并行處理。

import multiprocessing
from functools import partial
from QuoraTextPreprocessing import preprocess

BUCKET_SIZE = 50000

def run_process(df, start):
    df = df[start:start+BUCKET_SIZE]
    print(start, "to ",start+BUCKET_SIZE)
    temp = df["question"].apply(preprocess)

chunks  = [x for x in range(0,df.shape[0], BUCKET_SIZE)]   
pool = multiprocessing.Pool()
func = partial(run_process, df)
temp = pool.map(func,chunks)
pool.close()
pool.join()

該數(shù)據(jù)集有 537,361 條記錄（文本問題）需要處理。對于 50,000 的桶大小，數(shù)據(jù)集被分成 11 個較小的數(shù)據(jù)塊，這些塊可以并行處理以加快程序的執(zhí)行時間。