Python使用多進(jìn)程運(yùn)行含有任意個(gè)參數(shù)的函數(shù)
1. 問題引出
許多時(shí)候,我們對程序的速度都是有要求的,速度自然是越快越好。對于Python的話,一般都是使用multiprocessing這個(gè)庫來實(shí)現(xiàn)程序的多進(jìn)程化,例如:
我們有一個(gè)函數(shù)my_print,它的作用是打印我們的輸入:
def my_print(x):
print(x)
但是我們嫌它的速度太慢了,因此我們要將這個(gè)程序多進(jìn)程化:
from multiprocessing import Pool def my_print(x): print(x) if __name__ == "__main__": x = [1, 2, 3, 4, 5] pool = Pool() pool.map(my_print, x) pool.close() pool.join()
很好,現(xiàn)在速度與之前的單進(jìn)程相比提升非常的快,但是問題來了,如果我們的參數(shù)不只有一個(gè)x,而是有多個(gè),這樣能行嗎?比如現(xiàn)在my_print新增一個(gè)參數(shù)y:
def my_print(x, y):
print(x + y)
查看pool.map的函數(shù)說明:
def map(self, func, iterable, chunksize=None): ''' Apply `func` to each element in `iterable`, collecting the results in a list that is returned. ''' return self._map_async(func, iterable, mapstar, chunksize).get()
發(fā)現(xiàn)函數(shù)的參數(shù)是作為iter傳進(jìn)去的,但是我們現(xiàn)在有兩個(gè)參數(shù),自然想到使用zip將參數(shù)進(jìn)行打包:
if __name__ == "__main__": x = [1, 2, 3, 4, 5] y = [1, 1, 1, 1, 1] zip_args = list(zip(x, y)) pool = Pool() pool.map(my_print, zip_args) pool.close() pool.join()
可是執(zhí)行后卻發(fā)現(xiàn),y參數(shù)并沒有被傳進(jìn)去:
那么如何傳入多個(gè)參數(shù)呢?這也就是本文的重點(diǎn),接著往下看吧。
2. 解決方案
2.1 使用偏函數(shù)(partial)
偏函數(shù)有點(diǎn)像數(shù)學(xué)中的偏導(dǎo)數(shù),可以讓我們只關(guān)注其中的某一個(gè)變量而不考慮其他變量的影響。上面的例子中,Y始終等于1,那么我們在傳入?yún)?shù)的時(shí)候,只需要考慮X的變化即可。
例如你有一個(gè)函數(shù),該函數(shù)有兩個(gè)參數(shù)a,b,a是不同路徑的下的圖片的路徑,b是輸出的路徑。很明顯,a是一直在變化的,但是因?yàn)槲覀円獙⑺袌D片保存在同一個(gè)文件夾下,那么b很可能一直都沒變。
具體如下:
if __name__ == '__main__':# 多線程,多參數(shù),partial版本 x = [1, 2, 3, 4, 5] y = 1 partial_func = partial(my_print, y=y) pool = Pool() pool.map(partial_func, x) pool.close() pool.join()
2.2 使用可變參數(shù)
在Python函數(shù)中,函數(shù)可以定義可變參數(shù)。顧名思義,可變參數(shù)就是傳入的參數(shù)個(gè)數(shù)是可變的,可以是1個(gè)、2個(gè)到任意個(gè),這就直接給我們提供了一種思路。具體如下:
def multi_wrapper(args): return my_print(*args) def my_print(x, y): print(x + y) if __name__ == "__main__": # 多線程,多參數(shù),可變參數(shù)版本 x = [1, 2, 3, 4, 5] y = [1, 1, 1, 1, 1] zip_args = list(zip(x, y)) pool = Pool() pool.map(multi_wrapper, zip_args) pool.close() pool.join()
2.3 使用pathos提供的多進(jìn)程庫
from pathos.multiprocessing import ProcessingPool as newPool if __name__ == '__main__':# 多線程,多參數(shù),pathos版本 x = [1, 2, 3, 4, 5] y = [1, 1, 1, 1, 1] pool = newPool() pool.map(my_print, x, y) pool.close() pool.join()
在該庫的map函數(shù)下,可以看到,它允許多參數(shù)輸入,其實(shí)也就是使用了可變參數(shù):
def map(self, f, *args, **kwds): AbstractWorkerPool._AbstractWorkerPool__map(self, f, *args, **kwds) _pool = self._serve() return _pool.map(star(f), zip(*args)) # chunksize
2.4 使用starmap函數(shù)
if __name__ == '__main__': # 多線程,多參數(shù),starmap版本 x = [1, 2, 3, 4, 5] y = [1, 1, 1, 1, 1] zip_args = list(zip(x, y)) pool = Pool() pool.starmap(my_print, zip_args) pool.close() pool.join()
3. 總結(jié)
其實(shí)在以上4種實(shí)現(xiàn)方法中 ,第1種方法的限制較多,如果該函數(shù)的其它參數(shù)都在變化的話,那么它就不能很好地工作,而剩下的方法從體驗(yàn)上來講是依次遞增的,它們都可以接受任意多參數(shù)的輸入,但是第2種需要額外寫一個(gè)函數(shù),扣分;第3種方法需要額外安裝pathos包,扣分;而最后一種方法不需要任何額外不擇就可以完成,所以,推薦大家選擇第4種方法!
以上這篇Python使用多進(jìn)程運(yùn)行含有任意個(gè)參數(shù)的函數(shù)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python實(shí)現(xiàn)將MySQL數(shù)據(jù)庫表中的數(shù)據(jù)導(dǎo)出生成csv格式文件的方法
這篇文章主要介紹了Python實(shí)現(xiàn)將MySQL數(shù)據(jù)庫表中的數(shù)據(jù)導(dǎo)出生成csv格式文件的方法,涉及Python針對mysql數(shù)據(jù)庫的連接、查詢、csv格式數(shù)據(jù)文件的生成等相關(guān)操作技巧,需要的朋友可以參考下2018-01-01Python爬蟲開發(fā)與項(xiàng)目實(shí)戰(zhàn)
本書從基本的爬蟲原理開始講解,通過介紹Pthyon編程語言和Web前端基礎(chǔ)知識引領(lǐng)讀者入門,之后介紹動態(tài)爬蟲原理以及Scrapy爬蟲框架,最后介紹大規(guī)模數(shù)據(jù)下分布式爬蟲的設(shè)計(jì)以及PySpider爬蟲框架等,需要的朋友快來下載電子版吧2020-12-12