如何基于線程池提升request模塊效率
更新時間:2020年04月18日 09:09:01 作者:返回主頁人生苦短,我用python
這篇文章主要介紹了如何基于線程池提升request模塊效率,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
普通方法:爬取梨視頻
import re import time import random import requests from lxml import etree start_time = time.time() url = "https://www.pearvideo.com/category_3" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36" } ex = 'srcUrl="(.*?)",vdoUrl=srcUrl' def request_video(url): """ 向視頻鏈接發(fā)送請求 """ return requests.get(url=url, headers=headers).content def save_video(content): """ 將視頻的二進制數(shù)據(jù)保存到本地 """ video_name = str(random.randint(100, 999)) + ".mp4" with open(video_name, 'wb') as f: f.write(content) # 獲取首頁源碼 page_text = requests.get(url=url, headers=headers).text tree = etree.HTML(page_text) li_list = tree.xpath('//ul[@class="listvideo-list clearfix"]/li') video_url_list = list() for li in li_list: detail_url = "https://www.pearvideo.com/" + li.xpath('./div/a/@href')[0] # 獲取該視頻頁面的源碼 detail_page_text = requests.get(url=detail_url, headers=headers).text # 正則匹配視頻的URL video_url = re.findall(ex, detail_page_text, re.S)[0] video_url_list.append(video_url) content = request_video(video_url) save_video(content) print("執(zhí)行耗時: ", time.time() - start_time)
執(zhí)行耗時: 147.22410440444946
使用線程池:爬取梨視頻
# 使用線程池爬去梨視頻的 import re import time import random import requests from lxml import etree from multiprocessing.dummy import Pool start_time = time.time() url = "https://www.pearvideo.com/category_3" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36" } ex = 'srcUrl="(.*?)",vdoUrl=srcUrl' def request_video(url): """ 向視頻鏈接發(fā)送請求 """ return requests.get(url=url, headers=headers).content def save_video(content): """ 將視頻的二進制數(shù)據(jù)保存到本地 """ video_name = str(random.randint(100, 999)) + ".mp4" with open(video_name, 'wb') as f: f.write(content) # 獲取首頁源碼 page_text = requests.get(url=url, headers=headers).text tree = etree.HTML(page_text) li_list = tree.xpath('//ul[@class="listvideo-list clearfix"]/li') video_url_list = list() for li in li_list: detail_url = "https://www.pearvideo.com/" + li.xpath('./div/a/@href')[0] # 獲取該視頻頁面的源碼 detail_page_text = requests.get(url=detail_url, headers=headers).text # 正則匹配視頻的URL video_url = re.findall(ex, detail_page_text, re.S)[0] video_url_list.append(video_url) pool = Pool(4) #使用線程池將視頻的二進制數(shù)據(jù)下載下來 content_list = pool.map(request_video, video_url_list) # 使用線程池將視頻的二進制數(shù)據(jù)保存到本地 pool.map(save_video, content_list) print("執(zhí)行耗時: ", time.time() - start_time)
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
簡單介紹Python中的filter和lambda函數(shù)的使用
這篇文章主要簡單介紹了Python中的filter和lambda函數(shù)的使用,是Python學習中的基礎,同時lambda匿名函數(shù)的使用也是經(jīng)常被用來對比各種編程語的重要特性,言需要的朋友可以參考下2015-04-04python實現(xiàn)多線程的方式及多條命令并發(fā)執(zhí)行
這篇文章主要為大家詳細介紹了python實現(xiàn)多線程的方式及多條命令并發(fā)執(zhí)行,感興趣的小伙伴們可以參考一下2016-06-06Python入門之三角函數(shù)atan2()函數(shù)詳解
這篇文章主要介紹了Python入門之三角函數(shù)atan2()函數(shù)詳解,分享了其實例,具有一定參考價值,需要的朋友可以了解下。2017-11-11