python爬蟲控制aiohttp并發(fā)數(shù)量方式
前言
在使用aiohttp并發(fā)訪問多個頁面時效率,明顯比串行requests快很多,
但是也存在一個問題,就是網(wǎng)站檢測到短時間內(nèi)請求的數(shù)量過多會導(dǎo)致頁面請求不成成功,
頁面返回429 (too many requests)。
解決上述問題
目前想到兩個方法
1、控制請求的時間,用sleep延時,來消耗每一次訪問的時間,減少單位時間內(nèi)的訪問量,這樣肯定是可以,但效率太低
2、控制并發(fā)數(shù)量,控制并發(fā)數(shù)量,普遍推薦用信號量來控制使用方法也比較簡單如下:
from asyncio import tasks
from aiohttp.client import ClientSession
from lxml import etree
from time import sleep
import time
import asyncio
import aiohttp
async def read_page_list(page_num,sem):
params = {
'page':page_num,
}
#通過連接池控制并發(fā)數(shù)量 limit 默認(rèn)為100 0 為無限制
async with sem:
try:
async with aiohttp.ClientSession() as session:
async with session.get(url=url,params=params,headers=headers) as response:
text = await response.text()
except Exception as e:
print('exception:',e)
tree = etree.HTML(text)
page_list = tree.xpath('//*[@id="thumbs"]/section[1]/ul/li')
# break
for li in page_list:
pic_small_url = li.xpath('.//img/@data-src')[0]
# print(pic_small_url,type(pic_small_url))
# pic_small_url = str(pic_small_url)
if 'small' in pic_small_url:
temp_url = pic_small_url.replace('small','full')
a = temp_url.rfind('/')
temp_url1= temp_url[:a]
pic_full_url = temp_url1+'/wallhaven-'+temp_url.split('/')[-1]
pic_full_url = pic_full_url.replace('th','w')
# print(page_num,pic_full_url)
pic_list.append(pic_full_url)
else:
print(page_num,'find small error',pic_small_url)
print(page_num,len(page_list),response.status)
# await asyncio.sleep(1)
#這里可以用硬延時來控制程序的訪問速度,進(jìn)而控制單位時間內(nèi)并發(fā)的數(shù)量
# sleep(0.5)
#定義信號量
sem = asyncio.Semaphore(2)
start = time.time()
#建立任務(wù)列表
tasks = [loop.create_task(read_page_list(i,sem)) for i in range(1,20)]
loop.run_until_complete(asyncio.wait(tasks))
print('get page list use time:',time.time()-start)
實驗結(jié)果
如下:
- 經(jīng)試驗只有當(dāng)請求頁面20個 sem=1時才不會出現(xiàn)服務(wù)器返回429.
- 當(dāng)把請求頁面數(shù)量改為10 sem=5是就不會出現(xiàn)服務(wù)返回429的情況
總結(jié)
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python劃分?jǐn)?shù)組為連續(xù)數(shù)字集合的練習(xí)
這篇文章主要給大家分享的是Python劃分?jǐn)?shù)組為連續(xù)數(shù)字集合的練習(xí),下面文章首先對問題進(jìn)行詳細(xì)描述,在根據(jù)問題提出解決方案,內(nèi)容詳細(xì),需要的朋友可以參考一下,希望對你有所幫助2021-11-11
Python自定義聚合函數(shù)merge與transform區(qū)別詳解
這篇文章主要介紹了Python自定義聚合函數(shù)merge與transform區(qū)別詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-05-05
Pytorch中torch.flatten()和torch.nn.Flatten()實例詳解
這篇文章主要給大家介紹了關(guān)于Pytorch中torch.flatten()和torch.nn.Flatten()的相關(guān)資料,文中通過實例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2022-02-02
PyTorch深度學(xué)習(xí)LSTM從input輸入到Linear輸出
這篇文章主要為大家介紹了PyTorch深度學(xué)習(xí)LSTM從input輸入到Linear輸出深入理解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05
Python?中如何將十六進(jìn)制轉(zhuǎn)換為?Base64
本篇文章將介紹在?Python?中將?hex?轉(zhuǎn)換為?base64?的方法,本文結(jié)合實例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下2023-06-06
python?OpenCV實現(xiàn)圖像特征匹配示例詳解
這篇文章主要為大家介紹了python?OpenCV實現(xiàn)圖像特征匹配示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-04-04

