python爬蟲控制aiohttp并發(fā)數(shù)量方式
前言
在使用aiohttp并發(fā)訪問多個頁面時效率,明顯比串行requests快很多,
但是也存在一個問題,就是網(wǎng)站檢測到短時間內(nèi)請求的數(shù)量過多會導致頁面請求不成成功,
頁面返回429 (too many requests)。
解決上述問題
目前想到兩個方法
1、控制請求的時間,用sleep延時,來消耗每一次訪問的時間,減少單位時間內(nèi)的訪問量,這樣肯定是可以,但效率太低
2、控制并發(fā)數(shù)量,控制并發(fā)數(shù)量,普遍推薦用信號量來控制使用方法也比較簡單如下:
from asyncio import tasks from aiohttp.client import ClientSession from lxml import etree from time import sleep import time import asyncio import aiohttp async def read_page_list(page_num,sem): params = { 'page':page_num, } #通過連接池控制并發(fā)數(shù)量 limit 默認為100 0 為無限制 async with sem: try: async with aiohttp.ClientSession() as session: async with session.get(url=url,params=params,headers=headers) as response: text = await response.text() except Exception as e: print('exception:',e) tree = etree.HTML(text) page_list = tree.xpath('//*[@id="thumbs"]/section[1]/ul/li') # break for li in page_list: pic_small_url = li.xpath('.//img/@data-src')[0] # print(pic_small_url,type(pic_small_url)) # pic_small_url = str(pic_small_url) if 'small' in pic_small_url: temp_url = pic_small_url.replace('small','full') a = temp_url.rfind('/') temp_url1= temp_url[:a] pic_full_url = temp_url1+'/wallhaven-'+temp_url.split('/')[-1] pic_full_url = pic_full_url.replace('th','w') # print(page_num,pic_full_url) pic_list.append(pic_full_url) else: print(page_num,'find small error',pic_small_url) print(page_num,len(page_list),response.status) # await asyncio.sleep(1) #這里可以用硬延時來控制程序的訪問速度,進而控制單位時間內(nèi)并發(fā)的數(shù)量 # sleep(0.5) #定義信號量 sem = asyncio.Semaphore(2) start = time.time() #建立任務列表 tasks = [loop.create_task(read_page_list(i,sem)) for i in range(1,20)] loop.run_until_complete(asyncio.wait(tasks)) print('get page list use time:',time.time()-start)
實驗結(jié)果
如下:
- 經(jīng)試驗只有當請求頁面20個 sem=1時才不會出現(xiàn)服務器返回429.
- 當把請求頁面數(shù)量改為10 sem=5是就不會出現(xiàn)服務返回429的情況
總結(jié)
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python劃分數(shù)組為連續(xù)數(shù)字集合的練習
這篇文章主要給大家分享的是Python劃分數(shù)組為連續(xù)數(shù)字集合的練習,下面文章首先對問題進行詳細描述,在根據(jù)問題提出解決方案,內(nèi)容詳細,需要的朋友可以參考一下,希望對你有所幫助2021-11-11Python自定義聚合函數(shù)merge與transform區(qū)別詳解
這篇文章主要介紹了Python自定義聚合函數(shù)merge與transform區(qū)別詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-05-05Pytorch中torch.flatten()和torch.nn.Flatten()實例詳解
這篇文章主要給大家介紹了關(guān)于Pytorch中torch.flatten()和torch.nn.Flatten()的相關(guān)資料,文中通過實例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2022-02-02PyTorch深度學習LSTM從input輸入到Linear輸出
這篇文章主要為大家介紹了PyTorch深度學習LSTM從input輸入到Linear輸出深入理解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-05-05Python?中如何將十六進制轉(zhuǎn)換為?Base64
本篇文章將介紹在?Python?中將?hex?轉(zhuǎn)換為?base64?的方法,本文結(jié)合實例代碼給大家介紹的非常詳細,需要的朋友可以參考下2023-06-06python?OpenCV實現(xiàn)圖像特征匹配示例詳解
這篇文章主要為大家介紹了python?OpenCV實現(xiàn)圖像特征匹配示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-04-04