欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python如何使用隊列方式實現(xiàn)多線程爬蟲

 更新時間:2020年05月12日 10:32:02   作者:Norni  
這篇文章主要介紹了Python如何使用隊列方式實現(xiàn)多線程爬蟲,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

說明:糗事百科段子的爬取,采用了隊列和多線程的方式,其中關鍵點是Queue.task_done()、Queue.join(),保證了線程的有序進行。

代碼如下

import requests
from lxml import etree
import json
from queue import Queue
import threading

class Qsbk(object):
  def __init__(self):
    self.headers = {
      "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
      "Referer": "https://www.qiushibaike.com/"
    }
    # 實例化三個隊列,用來存放內容
    self.url_queue = Queue()
    self.html_queue = Queue()
    self.content_queue = Queue()

  def get_total_url(self):
    """
    獲取了所有的頁面url,并且返回url_list
    return:url_list
    現(xiàn)在放入url_queue隊列中保存
    """
    url_temp = "https://www.qiushibaike.com/text/page/{}/"
    url_list = list()
    for i in range(1,13):
      # url_list.append(url_temp.format(i))
      # 將生成的url放入url_queue隊列
      self.url_queue.put(url_temp.format(i))

  def parse_url(self):
    """
    發(fā)送請求,獲取響應,同時etree處理html
    """
    while self.url_queue.not_empty:
      # 判斷非空,為空時結束循環(huán)

      # 從隊列中取出一個url
      url = self.url_queue.get()
      print("parsing url:",url)
      # 發(fā)送請求
      response = requests.get(url,headers=self.headers,timeout=10)
      # 獲取html字符串
      html = response.content.decode()
      # 獲取element類型的html
      html = etree.HTML(html)
      # 將生成的element對象放入html_queue隊列
      self.html_queue.put(html)
      # Queue.task_done() 在完成一項工作之后,Queue.task_done()函數(shù)向任務已經(jīng)完成的隊列發(fā)送一個信號
      self.url_queue.task_done()

  def get_content(self):
    """
    解析網(wǎng)頁內容,獲取想要的信息
    """
    while self.html_queue.not_empty:
      items = list()
      html = self.html_queue.get()
      total_div = html.xpath("http://div[@class='col1 old-style-col1']/div")
      for i in total_div:

        author_img = i.xpath(".//a[@rel='nofollow']/img/@src")
        author_img = "https"+author_img[0] if len(author_img)>0 else None

        author_name = i.xpath(".//a[@rel='nofollow']/img/@alt")
        author_name = author_name[0] if len(author_name)>0 else None

        author_href = i.xpath("./a/@href")
        author_+author_href[0] if len(author_href)>0 else None

        author_gender = i.xpath("./div[1]/div/@class")
        author_gender = author_gender[0].split(" ")[-1].replace("Icon","").strip() if len(author_gender)>0 else None

        author_age = i.xpath("./div[1]/div/text()")
        author_age = author_age[0] if len(author_age)>0 else None

        content = i.xpath("./a/div/span/text()")
        content = content[0].strip() if len(content)>0 else None

        content_vote = i.xpath("./div[@class='stats']/span[@class='stats-vote']/i/text()")
        content_vote = content_vote[0] if len(content_vote)>0 else None

        content_comment_numbers = i.xpath("./div[@class='stats']/span[@class='stats-comments']/a/i/text()")
        content_comment_numbers = content_comment_numbers[0] if len(content_comment_numbers)>0 else None

        item = {
          "author_name":author_name,
          "author_age" :author_age,
          "author_gender":author_gender,
          "author_img":author_img,
          "author_href":author_href,
          "content":content,
          "content_vote":content_vote,
          "content_comment_numbers":content_comment_numbers,
        }
        items.append(item)
      self.content_queue.put(items)
      # task_done的時候,隊列計數(shù)減一
      self.html_queue.task_done()

  def save_items(self):
    """
    保存items
    """
    while self.content_queue.not_empty:
      items = self.content_queue.get()
      with open("quishibaike.txt",'a',encoding='utf-8') as f:
        for i in items:
          json.dump(i,f,ensure_ascii=False,indent=2)
      self.content_queue.task_done()

  def run(self):
    # 獲取url list
    thread_list = list()
    thread_url = threading.Thread(target=self.get_total_url)
    thread_list.append(thread_url)

    # 發(fā)送網(wǎng)絡請求
    for i in range(10):
      thread_parse = threading.Thread(target=self.parse_url)
      thread_list.append(thread_parse)

    # 提取數(shù)據(jù)
    thread_get_content = threading.Thread(target=self.get_content)
    thread_list.append(thread_get_content)

    # 保存
    thread_save = threading.Thread(target=self.save_items)
    thread_list.append(thread_save)


    for t in thread_list:
      # 為每個進程設置為后臺進程,效果是主進程退出子進程也會退出
      t.setDaemon(True)
      t.start()
    
    # 讓主線程等待,所有的隊列為空的時候才能退出
    self.url_queue.join()
    self.html_queue.join()
    self.content_queue.join()


if __name__=="__main__":
  obj = Qsbk()
  obj.run()

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • 詳解如何利用Pytest?Cache?Fixture實現(xiàn)測試結果緩存

    詳解如何利用Pytest?Cache?Fixture實現(xiàn)測試結果緩存

    這篇文章主要為大家詳細介紹了如何利用Pytest?Cache?Fixture實現(xiàn)測試結果緩存,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起了解一下
    2023-09-09
  • 為什么入門大數(shù)據(jù)選擇Python而不是Java?

    為什么入門大數(shù)據(jù)選擇Python而不是Java?

    為什么入門大數(shù)據(jù)選擇Python而不是Java?這篇文章就來談談學習大數(shù)據(jù)入門語言的選擇,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-03-03
  • python讀取文件指定行內容實例講解

    python讀取文件指定行內容實例講解

    在本篇文章里小編給大家整理的是關于python讀取文件指定行內容實例講解,需要的朋友們可以參考下。
    2020-03-03
  • python作圖基礎之plt.contour實例詳解

    python作圖基礎之plt.contour實例詳解

    contour和contourf都是畫三維等高線圖的,下面這篇文章主要給大家介紹了關于python作圖基礎操作之plt.contour的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2022-06-06
  • Python線程指南分享

    Python線程指南分享

    今天小編就為大家?guī)鞵ython線程指南分享,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-11-11
  • python合并同類型excel表格的方法

    python合并同類型excel表格的方法

    這篇文章主要為大家詳細介紹了python合并同類型excel表格的方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-04-04
  • Python fileinput模塊如何逐行讀取多個文件

    Python fileinput模塊如何逐行讀取多個文件

    這篇文章主要介紹了Python fileinput模塊如何逐行讀取多個文件,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-10-10
  • python如何更新包

    python如何更新包

    在本篇文章里小編給大家整理的是關于python更新包的相關知識點內容,有興趣的朋友們可以參考下。
    2020-06-06
  • python?通過dict(zip)和{}的方式構造字典的方法

    python?通過dict(zip)和{}的方式構造字典的方法

    在python中,通常通過dict和zip組合來構建鍵值對,這篇文章主要介紹了python?通過dict(zip)和{}的方式構造字典的方法,需要的朋友可以參考下
    2022-07-07
  • Python黑魔法庫安裝及操作字典示例詳解

    Python黑魔法庫安裝及操作字典示例詳解

    這篇文章主要為大家介紹了Python中黑魔法庫的安裝及操作字典的示例詳解,有需要的 朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步
    2021-10-10

最新評論