Python如何使用隊列方式實(shí)現(xiàn)多線程爬蟲
更新時間:2020年05月12日 10:32:02 作者:Norni
這篇文章主要介紹了Python如何使用隊列方式實(shí)現(xiàn)多線程爬蟲,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
說明:糗事百科段子的爬取,采用了隊列和多線程的方式,其中關(guān)鍵點(diǎn)是Queue.task_done()、Queue.join(),保證了線程的有序進(jìn)行。
代碼如下
import requests
from lxml import etree
import json
from queue import Queue
import threading
class Qsbk(object):
def __init__(self):
self.headers = {
"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
"Referer": "https://www.qiushibaike.com/"
}
# 實(shí)例化三個隊列,用來存放內(nèi)容
self.url_queue = Queue()
self.html_queue = Queue()
self.content_queue = Queue()
def get_total_url(self):
"""
獲取了所有的頁面url,并且返回url_list
return:url_list
現(xiàn)在放入url_queue隊列中保存
"""
url_temp = "https://www.qiushibaike.com/text/page/{}/"
url_list = list()
for i in range(1,13):
# url_list.append(url_temp.format(i))
# 將生成的url放入url_queue隊列
self.url_queue.put(url_temp.format(i))
def parse_url(self):
"""
發(fā)送請求,獲取響應(yīng),同時etree處理html
"""
while self.url_queue.not_empty:
# 判斷非空,為空時結(jié)束循環(huán)
# 從隊列中取出一個url
url = self.url_queue.get()
print("parsing url:",url)
# 發(fā)送請求
response = requests.get(url,headers=self.headers,timeout=10)
# 獲取html字符串
html = response.content.decode()
# 獲取element類型的html
html = etree.HTML(html)
# 將生成的element對象放入html_queue隊列
self.html_queue.put(html)
# Queue.task_done() 在完成一項工作之后,Queue.task_done()函數(shù)向任務(wù)已經(jīng)完成的隊列發(fā)送一個信號
self.url_queue.task_done()
def get_content(self):
"""
解析網(wǎng)頁內(nèi)容,獲取想要的信息
"""
while self.html_queue.not_empty:
items = list()
html = self.html_queue.get()
total_div = html.xpath("http://div[@class='col1 old-style-col1']/div")
for i in total_div:
author_img = i.xpath(".//a[@rel='nofollow']/img/@src")
author_img = "https"+author_img[0] if len(author_img)>0 else None
author_name = i.xpath(".//a[@rel='nofollow']/img/@alt")
author_name = author_name[0] if len(author_name)>0 else None
author_href = i.xpath("./a/@href")
author_+author_href[0] if len(author_href)>0 else None
author_gender = i.xpath("./div[1]/div/@class")
author_gender = author_gender[0].split(" ")[-1].replace("Icon","").strip() if len(author_gender)>0 else None
author_age = i.xpath("./div[1]/div/text()")
author_age = author_age[0] if len(author_age)>0 else None
content = i.xpath("./a/div/span/text()")
content = content[0].strip() if len(content)>0 else None
content_vote = i.xpath("./div[@class='stats']/span[@class='stats-vote']/i/text()")
content_vote = content_vote[0] if len(content_vote)>0 else None
content_comment_numbers = i.xpath("./div[@class='stats']/span[@class='stats-comments']/a/i/text()")
content_comment_numbers = content_comment_numbers[0] if len(content_comment_numbers)>0 else None
item = {
"author_name":author_name,
"author_age" :author_age,
"author_gender":author_gender,
"author_img":author_img,
"author_href":author_href,
"content":content,
"content_vote":content_vote,
"content_comment_numbers":content_comment_numbers,
}
items.append(item)
self.content_queue.put(items)
# task_done的時候,隊列計數(shù)減一
self.html_queue.task_done()
def save_items(self):
"""
保存items
"""
while self.content_queue.not_empty:
items = self.content_queue.get()
with open("quishibaike.txt",'a',encoding='utf-8') as f:
for i in items:
json.dump(i,f,ensure_ascii=False,indent=2)
self.content_queue.task_done()
def run(self):
# 獲取url list
thread_list = list()
thread_url = threading.Thread(target=self.get_total_url)
thread_list.append(thread_url)
# 發(fā)送網(wǎng)絡(luò)請求
for i in range(10):
thread_parse = threading.Thread(target=self.parse_url)
thread_list.append(thread_parse)
# 提取數(shù)據(jù)
thread_get_content = threading.Thread(target=self.get_content)
thread_list.append(thread_get_content)
# 保存
thread_save = threading.Thread(target=self.save_items)
thread_list.append(thread_save)
for t in thread_list:
# 為每個進(jìn)程設(shè)置為后臺進(jìn)程,效果是主進(jìn)程退出子進(jìn)程也會退出
t.setDaemon(True)
t.start()
# 讓主線程等待,所有的隊列為空的時候才能退出
self.url_queue.join()
self.html_queue.join()
self.content_queue.join()
if __name__=="__main__":
obj = Qsbk()
obj.run()
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
您可能感興趣的文章:
- python線程優(yōu)先級隊列知識點(diǎn)總結(jié)
- 如何通過Python實(shí)現(xiàn)RabbitMQ延遲隊列
- python分布式爬蟲中消息隊列知識點(diǎn)詳解
- Python通過隊列來實(shí)現(xiàn)進(jìn)程間通信的示例
- Python collections.deque雙邊隊列原理詳解
- 基于python實(shí)現(xiàn)操作redis及消息隊列
- Python Celery異步任務(wù)隊列使用方法解析
- Python實(shí)現(xiàn)一個優(yōu)先級隊列的方法
- Python多線程通信queue隊列用法實(shí)例分析
- python3 deque 雙向隊列創(chuàng)建與使用方法分析
- Python實(shí)現(xiàn)隊列的方法示例小結(jié)【數(shù)組,鏈表】
- 詳解python數(shù)據(jù)結(jié)構(gòu)之隊列Queue
相關(guān)文章
詳解如何利用Pytest?Cache?Fixture實(shí)現(xiàn)測試結(jié)果緩存
這篇文章主要為大家詳細(xì)介紹了如何利用Pytest?Cache?Fixture實(shí)現(xiàn)測試結(jié)果緩存,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起了解一下2023-09-09
為什么入門大數(shù)據(jù)選擇Python而不是Java?
為什么入門大數(shù)據(jù)選擇Python而不是Java?這篇文章就來談?wù)剬W(xué)習(xí)大數(shù)據(jù)入門語言的選擇,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-03-03
python作圖基礎(chǔ)之plt.contour實(shí)例詳解
contour和contourf都是畫三維等高線圖的,下面這篇文章主要給大家介紹了關(guān)于python作圖基礎(chǔ)操作之plt.contour的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-06-06
python?通過dict(zip)和{}的方式構(gòu)造字典的方法
在python中,通常通過dict和zip組合來構(gòu)建鍵值對,這篇文章主要介紹了python?通過dict(zip)和{}的方式構(gòu)造字典的方法,需要的朋友可以參考下2022-07-07

