幾行代碼讓 Python 函數(shù)執(zhí)行快 30 倍
Python 是一種流行的編程語言,也是數(shù)據(jù)科學(xué)社區(qū)中最受歡迎的語言。與其他流行編程語言相比,Python
的主要缺點是它的動態(tài)特性和多功能屬性拖慢了速度表現(xiàn)。Python
代碼是在運行時被解釋的,而不是在編譯時被編譯為原生代碼。
1、Python 多線程處理的基本指南
C 語言的執(zhí)行速度比 Python
代碼快 10
到 100
倍。但如果對比開發(fā)速度的話,Python
比 C 語言要快。對于數(shù)據(jù)科學(xué)研究來說,開發(fā)速度遠比運行時性能更重要。由于存在大量 API
、框架和包,Python
更受數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師的青睞,只是它在性能優(yōu)化方面落后太多了。
2、多處理入門
考慮一個單核心 CPU
,如果它被同時分配多個任務(wù),就必須不斷地中斷當(dāng)前執(zhí)行的任務(wù)并切換到下一個任務(wù)才能保持所有進程正常運行。對于多核處理器來說,CPU
可以在不同內(nèi)核中同時執(zhí)行多個任務(wù),這一概念被稱為并行處理。
3、它為什么如此重要?
數(shù)據(jù)整理、特征工程和數(shù)據(jù)探索都是數(shù)據(jù)科學(xué)模型開發(fā)管道中的重要元素。在輸入機器學(xué)習(xí)模型之前,原始數(shù)據(jù)需要做工程處理。對于較小的數(shù)據(jù)集來說,執(zhí)行過程只需幾秒鐘就能完成;但對于較大的數(shù)據(jù)集而言,這項任務(wù)就比較繁重了。
并行處理是提高 Python
程序性能的一種有效方法。Python
有一個多處理模塊,讓我們能夠跨 CPU
的不同內(nèi)核并行執(zhí)行程序。
4、實現(xiàn)
我們將使用來自 multiprocessing
模塊的 Pool
類,針對多個輸入值并行執(zhí)行一個函數(shù)。這個概念稱為數(shù)據(jù)并行性,它是 Pool
類的主要目標(biāo)。
我將使用從
Kaggle
下載的Quora
問題對相似性數(shù)據(jù) 集來演示這個模塊。
上述數(shù)據(jù)集包含了很多在 Quora
平臺上提出的文本問題。我將在一個 Python
函數(shù)上執(zhí)行多處理模塊,這個函數(shù)通過刪除停用詞、刪除 HTML 標(biāo)簽、刪除標(biāo)點符號、詞干提取等過程來處理文本數(shù)據(jù)。
preprocess()
就是執(zhí)行上述文本處理步驟的函數(shù)。
可以在 這里 找到托管在我的 GitHub
上的函數(shù) preprocess()
的代碼片段。
現(xiàn)在,我們使用 multiprocessing
模塊中的 Pool
類為數(shù)據(jù)集的不同塊并行執(zhí)行該函數(shù)。數(shù)據(jù)集的每個塊都將并行處理。
import multiprocessing from functools import partial from QuoraTextPreprocessing import preprocess BUCKET_SIZE = 50000 def run_process(df, start): df = df[start:start+BUCKET_SIZE] print(start, "to ",start+BUCKET_SIZE) temp = df["question"].apply(preprocess) chunks = [x for x in range(0,df.shape[0], BUCKET_SIZE)] pool = multiprocessing.Pool() func = partial(run_process, df) temp = pool.map(func,chunks) pool.close() pool.join()
該數(shù)據(jù)集有 537,361
條記錄(文本問題)需要處理。對于 50,000
的桶大小,數(shù)據(jù)集被分成 11 個較小的數(shù)據(jù)塊,這些塊可以并行處理以加快程序的執(zhí)行時間。
5、基準(zhǔn)測試
人們常問的問題是使用多處理模塊后執(zhí)行速度能快多少。我在實現(xiàn)了數(shù)據(jù)并行性,對整個數(shù)據(jù)集執(zhí)行一次 preprocess()
函數(shù)后對比了基準(zhǔn)執(zhí)行時間。
運行測試的機器有 64GB 內(nèi)存和 10 個 CPU 內(nèi)核。
多處理和單處理執(zhí)行的基準(zhǔn)時間:
從上圖中,我們可以觀察到 Python
函數(shù)的并行處理將執(zhí)行速度提高了近 30
倍。
我們可以在我的
GitHub
中找到用于記錄基準(zhǔn)測試數(shù)據(jù)的Python
文件。
基準(zhǔn)測試過程:
結(jié) 論:
在本文中,我們討論了 Python
中多處理模塊的實現(xiàn),該模塊可用于加速 Python
函數(shù)的執(zhí)行。添加幾行多處理代碼后,具有 537k 實例的數(shù)據(jù)集的執(zhí)行時間幾乎快了 30 倍。
處理大型數(shù)據(jù)集的時候,我建議大家使用并行處理,因為它可以節(jié)省大量時間并加快工作流程。
到此這篇關(guān)于幾行代碼讓 Python 函數(shù)執(zhí)行快 30 倍的文章就介紹到這了,更多相關(guān)Python
函數(shù)執(zhí)行內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python 使用遞歸的方式實現(xiàn)語義圖片分割功能
這篇文章主要介紹了python 使用遞歸的方式實現(xiàn)語義圖片分割,本文通過實例代碼給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-07-07Python使用poplib模塊和smtplib模塊收發(fā)電子郵件的教程
smtplib模塊一般我們比較熟悉、這里我們會來講解使用smtplib發(fā)送SSL/TLS安全郵件的方法,而poplib模塊則負責(zé)處理接收pop3協(xié)議的郵件,下面我們就來看Python使用poplib模塊和smtplib模塊收發(fā)電子郵件的教程2016-07-07Python tabulate結(jié)合loguru打印出美觀方便的日志記錄
在開發(fā)過程中經(jīng)常碰到在本地環(huán)境無法完成聯(lián)調(diào)測試的情況,必須到統(tǒng)一的聯(lián)機環(huán)境對接其他系統(tǒng)測試。往往是出現(xiàn)了BUG難以查找數(shù)據(jù)記錄及時定位到錯誤出現(xiàn)的位置。本文將利用tabulate結(jié)合loguru實現(xiàn)打印出美觀方便的日志記錄,需要的可以參考一下2022-10-10Python 正則表達式 re.match/re.search/re.sub的使用解析
今天小編就為大家分享一篇Python 正則表達式 re.match/re.search/re.sub的使用解析,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07Python hexstring-list-str之間的轉(zhuǎn)換方法
今天小編就為大家分享一篇Python hexstring-list-str之間的轉(zhuǎn)換方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06Django模板變量如何傳遞給外部js調(diào)用的方法小結(jié)
這篇文章主要給大家介紹了關(guān)于Django模板變量如何傳遞給外部js調(diào)用的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家具有一定的參考學(xué)習(xí)價值,需要的朋友們下面跟著小編一起來學(xué)習(xí)學(xué)習(xí)吧。2017-07-07