快捷導(dǎo)航

實(shí)例代碼講解Python 線(xiàn)程池

更新時(shí)間：2020年08月24日 11:19:04 作者：python技術(shù)

這篇文章主要介紹了Python 線(xiàn)程池的相關(guān)資料，幫助大家更好的理解和學(xué)習(xí)python，感興趣的朋友可以了解下

大家都知道當(dāng)任務(wù)過(guò)多，任務(wù)量過(guò)大時(shí)如果想提高效率的一個(gè)最簡(jiǎn)單的方法就是用多線(xiàn)程去處理，比如爬取上萬(wàn)個(gè)網(wǎng)頁(yè)中的特定數(shù)據(jù)，以及將爬取數(shù)據(jù)和清洗數(shù)據(jù)的工作交給不同的線(xiàn)程去處理，也就是生產(chǎn)者消費(fèi)者模式，都是典型的多線(xiàn)程使用場(chǎng)景。

那是不是意味著線(xiàn)程數(shù)量越多，程序的執(zhí)行效率就越快呢。

顯然不是。線(xiàn)程也是一個(gè)對(duì)象，是需要占用資源的，線(xiàn)程數(shù)量過(guò)多的話(huà)肯定會(huì)消耗過(guò)多的資源，同時(shí)線(xiàn)程間的上下文切換也是一筆不小的開(kāi)銷(xiāo)，所以有時(shí)候開(kāi)辟過(guò)多的線(xiàn)程不但不會(huì)提高程序的執(zhí)行效率，反而會(huì)適得其反使程序變慢，得不償失。

所以，如何確定多線(xiàn)程的數(shù)量是多線(xiàn)程編程中一個(gè)非常重要的問(wèn)題。好在經(jīng)過(guò)多年的摸索業(yè)界基本已形成一套默認(rèn)的標(biāo)準(zhǔn)。

對(duì)于 CPU 密集型的計(jì)算場(chǎng)景，理論上將線(xiàn)程的數(shù)量設(shè)置為 CPU 核數(shù)就是最合適的，這樣可以將每個(gè) CPU 核心的性能壓榨到極致，不過(guò)在工程上，線(xiàn)程的數(shù)量一般會(huì)設(shè)置為 CPU 核數(shù) + 1，這樣在某個(gè)線(xiàn)程因?yàn)槲粗蜃枞麜r(shí)多余的那個(gè)線(xiàn)程完全可以頂上。

而對(duì)于 I/O 密集型的應(yīng)用，就需要考慮 CPU 計(jì)算的耗時(shí)和 I/O 的耗時(shí)比了。如果 I/O 耗時(shí)和 CPU 耗時(shí) 為 1:1，那么兩個(gè)線(xiàn)程是最合適的，因?yàn)楫?dāng) A 線(xiàn)程做 I/O 操作時(shí)，B 線(xiàn)程執(zhí)行 CPU 計(jì)算任務(wù)，當(dāng) B 線(xiàn)程做 I/O 操作時(shí)，A 線(xiàn)程執(zhí)行 CPU 計(jì)算任務(wù)，CPU 和 I/O 的利用率都得到了百分百，完美。所以可以認(rèn)為最佳線(xiàn)程數(shù) = CPU 核數(shù) * [1 +（I/O 耗時(shí) / CPU 耗時(shí)]。

線(xiàn)程池

平時(shí)我們自己寫(xiě)多線(xiàn)程程序時(shí)基本都是直接調(diào)用 Thread(target=method) 即可，實(shí)際上創(chuàng)建線(xiàn)程遠(yuǎn)沒(méi)有這么簡(jiǎn)單，需要分配內(nèi)存，同時(shí)線(xiàn)程還需要調(diào)用操作系統(tǒng)內(nèi)核的 API，然后操作系統(tǒng)還需要為線(xiàn)程分配一系列的資源，過(guò)程很是復(fù)雜，所以要盡量避免頻繁的創(chuàng)建和銷(xiāo)毀線(xiàn)程。

回想一下自己平時(shí)寫(xiě)多線(xiàn)程代碼的模式，是不是當(dāng)任務(wù)來(lái)臨時(shí)直接創(chuàng)建線(xiàn)程，執(zhí)行任務(wù)，當(dāng)任務(wù)執(zhí)行結(jié)束之后，線(xiàn)程也就隨之消亡了。然后又開(kāi)始循環(huán)往復(fù)。有多少個(gè)任務(wù)就創(chuàng)建了多少個(gè)線(xiàn)程。這種模式的話(huà)很浪費(fèi)硬件資源。

那如何避免這種問(wèn)題呢，線(xiàn)程池就派上用場(chǎng)了。

其實(shí)線(xiàn)程池就是生產(chǎn)者消費(fèi)者模式的最佳實(shí)踐，當(dāng)線(xiàn)程池初始化時(shí)，會(huì)自動(dòng)創(chuàng)建指定數(shù)量的線(xiàn)程，有任務(wù)到達(dá)時(shí)直接從線(xiàn)程池中取一個(gè)空閑線(xiàn)程來(lái)用即可，當(dāng)任務(wù)執(zhí)行結(jié)束時(shí)線(xiàn)程不會(huì)消亡而是直接進(jìn)入空閑狀態(tài)，繼續(xù)等待下一個(gè)任務(wù)。而隨著任務(wù)的增加線(xiàn)程池中的可用線(xiàn)程必將逐漸減少，當(dāng)減少至零時(shí)，任務(wù)就需要等待了。

在 python 中使用線(xiàn)程池有兩種方式，一種是基于第三方庫(kù) threadpool，另一種是基于 python3 新引入的庫(kù) concurrent.futures.ThreadPoolExecutor。這里我們都做一下介紹。

threadpool 方式

使用 threadpool 前需要先安裝一下，看了這么久我們的文章，相信你很快就會(huì)搞定的。在命令行執(zhí)行如下命令即可。

pip install threadpool

以下是一個(gè)簡(jiǎn)易的線(xiàn)程池使用模版，我們創(chuàng)建了一個(gè)函數(shù) sayhello，然后創(chuàng)建了一個(gè)大小為 2 的線(xiàn)程池，也就是線(xiàn)程池總共有兩個(gè)活躍線(xiàn)程。

最后通過(guò) pool.putRequest() 將任務(wù)丟到線(xiàn)程池執(zhí)， pool.wait() 等待所有線(xiàn)程結(jié)束。同時(shí)我們還可以定義回調(diào)函數(shù)，拿到任務(wù)的返回結(jié)果。

由結(jié)果我們可以看出，線(xiàn)程池中的確只有兩個(gè)線(xiàn)程，分別為 Thread-1 和 Thread-2。

import time
import threadpool
import threading

def sayhello(name):
  print("%s say Hello to %s" % (threading.current_thread().getName(), name));
  time.sleep(1)
  return name

def callback(request, result): # 回調(diào)函數(shù)，用于取回結(jié)果
  print("callback result = %s" % result)

name_list =['admin','root','scott','tiger']
start_time = time.time()
pool = threadpool.ThreadPool(2) # 創(chuàng)建線(xiàn)程池
requests = threadpool.makeRequests(sayhello, name_list, callback) # 創(chuàng)建任務(wù)
[pool.putRequest(req) for req in requests] # 加入任務(wù)
pool.wait() 
print('%s cost %d second' % (threading.current_thread().getName(), time.time()-start_time))

## 運(yùn)行結(jié)果如下
Thread-1 say Hello to admin
Thread-2 say Hello to root
Thread-1 say Hello to scott
Thread-2 say Hello to tiger
callback result = admin
callback result = root
callback result = tiger
callback result = scott
MainThread cost 2 second

ThreadPoolExecutor 方式

ThreadPoolExecutor 是 python3 新引入的庫(kù)，具體使用方法與 threadpool 大同小異，同樣是創(chuàng)建容量為 2 的線(xiàn)程池，提交四個(gè)任務(wù)。只不過(guò)這里分別是通過(guò) submit 和 as_completed 來(lái)提交和獲取任務(wù)返回結(jié)果的。

同樣由輸出結(jié)果我們可以看出，兩種線(xiàn)程池的實(shí)現(xiàn)方式中關(guān)于線(xiàn)程的命名方式是不一致的。

import time
import threading
from concurrent.futures import ThreadPoolExecutor, as_completed

def sayhello(name):
  print("%s say Hello to %s" % (threading.current_thread().getName(), name));
  time.sleep(1)
  return name

name_list =['admin','root','scott','tiger']
start_time = time.time()
with ThreadPoolExecutor(2) as executor: # 創(chuàng)建 ThreadPoolExecutor 
  future_list = [executor.submit(sayhello, name) for name in name_list] # 提交任務(wù)

for future in as_completed(future_list):
  result = future.result() # 獲取任務(wù)結(jié)果
  print("%s get result : %s" % (threading.current_thread().getName(), result))

print('%s cost %d second' % (threading.current_thread().getName(), time.time()-start_time))

## 運(yùn)行結(jié)果如下
ThreadPoolExecutor-0_0 say Hello to admin
ThreadPoolExecutor-0_1 say Hello to root
ThreadPoolExecutor-0_0 say Hello to scott
ThreadPoolExecutor-0_1 say Hello to tiger
MainThread get result : root
MainThread get result : tiger
MainThread get result : scott
MainThread get result : admin
MainThread cost 2 second

線(xiàn)程池總結(jié)

本文介紹了常用的兩種線(xiàn)程池的實(shí)現(xiàn)方式，在多線(xiàn)程編程中能使用線(xiàn)程池就不要自己去創(chuàng)建線(xiàn)程，并不是說(shuō)線(xiàn)程池實(shí)現(xiàn)的多么好，其實(shí)我們自己完全也可以實(shí)現(xiàn)一個(gè)功能更強(qiáng)大的線(xiàn)程池。但是其內(nèi)置的線(xiàn)程池一來(lái)是受過(guò)全方面測(cè)試的，在安全性，性能和方便性上基本就是最優(yōu)的了，同時(shí)線(xiàn)程池還替我們做了很多額外的工作，比如任務(wù)隊(duì)列的維護(hù)，線(xiàn)程銷(xiāo)毀時(shí)資源的回收等都不需要開(kāi)發(fā)者去關(guān)心，我們只需注重業(yè)務(wù)邏輯即可，不需要在關(guān)心其他額外的工作，這將大大提高我們的的工作效率和使用感受。

當(dāng)然其自帶的線(xiàn)程池也不是十全十美的，至少暫時(shí)沒(méi)有提供動(dòng)態(tài)添加任務(wù)的入口出來(lái)。而且在設(shè)計(jì)方面不夠靈活，比如我想線(xiàn)程池只維護(hù)一個(gè)核心數(shù)量，也就是上文說(shuō)的最大數(shù)量。但是當(dāng)任務(wù)過(guò)多時(shí)可以再額外創(chuàng)建出一些新的線(xiàn)程（閾值可以自定義），處理完之后這些多余的線(xiàn)程將自動(dòng)銷(xiāo)毀，目前這個(gè)是做不到的。

代碼地址

https://github.com/JustDoPython/python-100-day/tree/master/day-053

參考資料

https://chrisarndt.de/projects/threadpool/api/

以上就是實(shí)例代碼講解Python 線(xiàn)程池的詳細(xì)內(nèi)容，更多關(guān)于Python 線(xiàn)程池的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: