熱門(mén)問(wèn)題python爬蟲(chóng)的效率如何提高

文 | 閑歡
來(lái)源:Python 技術(shù)「ID: pythonall」
今天在瀏覽知乎時(shí),發(fā)現(xiàn)一個(gè)有趣的問(wèn)題:如何優(yōu)化 Python 爬蟲(chóng)的速度?
他的問(wèn)題描述是:
目前在寫(xiě)一個(gè) Python 爬蟲(chóng),單線程 urllib 感覺(jué)過(guò)于慢了,達(dá)不到數(shù)據(jù)量的要求(十萬(wàn)級(jí)頁(yè)面)。求問(wèn)有哪些可以提高爬取效率的方法?
這個(gè)問(wèn)題還蠻多人關(guān)注的,但是回答的人卻不多。
我今天就來(lái)嘗試著回答一下這個(gè)問(wèn)題。
程序提速這個(gè)問(wèn)題其實(shí)解決方案就擺在那里,要么通過(guò)并發(fā)來(lái)提高單位時(shí)間內(nèi)處理的工作量,要么從程序本身去找提效點(diǎn),比如爬取的數(shù)據(jù)用gzip傳輸、提高處理數(shù)據(jù)的速度等。
我會(huì)分別從幾種常見(jiàn)的并發(fā)方法去做同一件事情,從而比較處理效率。
簡(jiǎn)單版本爬蟲(chóng)
我們先來(lái)一個(gè)簡(jiǎn)單的爬蟲(chóng),看看單線程處理會(huì)花費(fèi)多少時(shí)間?
import time
import requests
from datetime import datetime
def fetch(url):
r = requests.get(url)
print(r.text)
start = datetime.now()
t1 = time.time()
for i in range(100):
fetch('http://httpbin.org/get')
print('requests版爬蟲(chóng)耗時(shí):', time.time() - t1)
# requests版爬蟲(chóng)耗時(shí):54.86306357383728
我們用一個(gè)爬蟲(chóng)的測(cè)試網(wǎng)站,測(cè)試爬取100次,用時(shí)是54.86秒。
多線程版本爬蟲(chóng)
下面我們將上面的程序改為多線程版本:
import threading
import time
import requests
def fetch():
r = requests.get('http://httpbin.org/get')
print(r.text)
t1 = time.time()
t_list = []
for i in range(100):
t = threading.Thread(target=fetch, args=())
t_list.append(t)
t.start()
for t in t_list:
t.join()
print("多線程版爬蟲(chóng)耗時(shí):", time.time() - t1)
# 多線程版爬蟲(chóng)耗時(shí):0.8038511276245117
我們可以看到,用上多線程之后,速度提高了68倍。其實(shí)用這種方式的話,由于我們并發(fā)操作,所以跑100次跟跑一次的時(shí)間基本是一致的。這只是一個(gè)簡(jiǎn)單的例子,實(shí)際情況中我們不可能無(wú)限制地增加線程數(shù)。
多進(jìn)程版本爬蟲(chóng)
除了多線程之外,我們還可以使用多進(jìn)程來(lái)提高爬蟲(chóng)速度:
import requests
import time
import multiprocessing
from multiprocessing import Pool
MAX_WORKER_NUM = multiprocessing.cpu_count()
def fetch():
r = requests.get('http://httpbin.org/get')
print(r.text)
if __name__ == '__main__':
t1 = time.time()
p = Pool(MAX_WORKER_NUM)
for i in range(100):
p.apply_async(fetch, args=())
p.close()
p.join()
print('多進(jìn)程爬蟲(chóng)耗時(shí):', time.time() - t1)
多進(jìn)程爬蟲(chóng)耗時(shí): 7.9846765995025635
我們可以看到多進(jìn)程處理的時(shí)間是多線程的10倍,比單線程版本快7倍。
協(xié)程版本爬蟲(chóng)
我們將程序改為使用 aiohttp 來(lái)實(shí)現(xiàn),看看效率如何:
import aiohttp
import asyncio
import time
async def fetch(client):
async with client.get('http://httpbin.org/get') as resp:
assert resp.status == 200
return await resp.text()
async def main():
async with aiohttp.ClientSession() as client:
html = await fetch(client)
print(html)
loop = asyncio.get_event_loop()
tasks = []
for i in range(100):
task = loop.create_task(main())
tasks.append(task)
t1 = time.time()
loop.run_until_complete(main())
print("aiohttp版爬蟲(chóng)耗時(shí):", time.time() - t1)
aiohttp版爬蟲(chóng)耗時(shí): 0.6133313179016113
我們可以看到使用這種方式實(shí)現(xiàn),比單線程版本快90倍,比多線程還快。
結(jié)論
通過(guò)上面的程序?qū)Ρ?,我們可以看到,?duì)于多任務(wù)爬蟲(chóng)來(lái)說(shuō),多線程、多進(jìn)程、協(xié)程這幾種方式處理效率的排序?yàn)椋篴iohttp > 多線程 > 多進(jìn)程。因此,對(duì)于簡(jiǎn)單的爬蟲(chóng)任務(wù),如果想要提高效率,可以考慮使用協(xié)程。但是同時(shí)也要注意,這里只是簡(jiǎn)單的示例,實(shí)際運(yùn)用中,我們一般會(huì)用線程池、進(jìn)程池、協(xié)程池去操作。
這就是問(wèn)題的答案了嗎?
對(duì)于一個(gè)嚴(yán)謹(jǐn)?shù)某绦騿T來(lái)說(shuō),當(dāng)然不是,實(shí)際上還有一些優(yōu)化的庫(kù),例如grequests,可以從請(qǐng)求上解決并發(fā)問(wèn)題。實(shí)際的處理過(guò)程中,肯定還有其他的優(yōu)化點(diǎn),這里只是從最常見(jiàn)的幾種并發(fā)方式去比較而已,應(yīng)付簡(jiǎn)單爬蟲(chóng)還是可以的,其他的方式歡迎大家在評(píng)論區(qū)留言探討。
以上就是熱門(mén)問(wèn)題python爬蟲(chóng)的效率如何提高的詳細(xì)內(nèi)容,更多關(guān)于python爬蟲(chóng)效率提高的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
- Python爬蟲(chóng)基于lxml解決數(shù)據(jù)編碼亂碼問(wèn)題
- 記一次python 爬蟲(chóng)爬取深圳租房信息的過(guò)程及遇到的問(wèn)題
- python爬蟲(chóng)中采集中遇到的問(wèn)題整理
- 詳解Python爬蟲(chóng)爬取博客園問(wèn)題列表所有的問(wèn)題
- Python爬蟲(chóng)實(shí)現(xiàn)selenium處理iframe作用域問(wèn)題
- Python爬蟲(chóng)設(shè)置Cookie解決網(wǎng)站攔截并爬取螞蟻短租的問(wèn)題
- 基于python分布式爬蟲(chóng)并解決假死的問(wèn)題
- python爬蟲(chóng)抓取時(shí)常見(jiàn)的小問(wèn)題總結(jié)
相關(guān)文章
pytorch打印網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)例
今天小編就為大家分享一篇pytorch打印網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-08-08
Win10?Anaconda?新建環(huán)境安裝python-pcl的步驟
這篇文章主要介紹了Win10?Anaconda?新建環(huán)境安裝python-pcl的方法,至于VS環(huán)境下安裝C++?版本的pcl也可以按照此文提供的步驟安裝實(shí)現(xiàn),需要的朋友可以參考下2022-04-04
使用httplib模塊來(lái)制作Python下HTTP客戶端的方法
這篇文章主要介紹了使用httplib模塊來(lái)制作Python下HTTP客戶端的方法,文中列舉了一些httplib下常用的HTTP方法,需要的朋友可以參考下2015-06-06
Python基于PycURL實(shí)現(xiàn)POST的方法
這篇文章主要介紹了Python基于PycURL實(shí)現(xiàn)POST的方法,涉及Python實(shí)現(xiàn)curl傳遞post數(shù)據(jù)的技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-07-07
python GUI庫(kù)圖形界面開(kāi)發(fā)之PyQt5下拉列表框控件QComboBox詳細(xì)使用方法與實(shí)例
這篇文章主要介紹了python GUI庫(kù)圖形界面開(kāi)發(fā)之PyQt5下拉列表框控件QComboBox詳細(xì)使用方法與實(shí)例,需要的朋友可以參考下2020-02-02
Python實(shí)現(xiàn)XML文件解析的示例代碼
本篇文章主要介紹了Python實(shí)現(xiàn)XML文件解析的示例代碼,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-02-02
python多進(jìn)程使用函數(shù)封裝實(shí)例
這篇文章主要介紹了python多進(jìn)程使用函數(shù)封裝實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-05-05
詳解用python -m http.server搭一個(gè)簡(jiǎn)易的本地局域網(wǎng)
這篇文章主要介紹了詳解用python -m http.server搭一個(gè)簡(jiǎn)易的本地局域網(wǎng),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09
Django中Migrate和Makemigrations實(shí)操詳解
這篇文章主要為大家介紹了Django中Migrate和Makemigrations實(shí)操詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-09-09

