Python3多線程處理爬蟲的實戰(zhàn)
多線程
到底什么是多線程?說起多線程我們首先從單線程來說。例如,我在這里看書,等這件事情干完,我就再去聽音樂。對于這兩件事情來說都是屬于單線程,是一個完成了再接著完成下一個。但是我一般看書一邊聽歌,同時進行,這個就屬于多線程了。
在爬蟲過程中,如果只使用單線程進行爬取,效率會比較低下,因此多線程的爬蟲處理方式更為常用。Python3提供了threading模塊來支持多線程編程,以下是使用Python3多線程處理爬蟲的一般步驟:
導(dǎo)入依賴模塊
import threading import requests from queue import Queue
構(gòu)建爬蟲類
class Spider: def __init__(self): self.urls = Queue() # 待爬取的鏈接隊列 self.results = [] # 存儲爬取結(jié)果的列表 self.lock = threading.Lock() # 線程鎖 self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 獲取鏈接列表 def get_urls(self): # 這里可以從文件、數(shù)據(jù)庫、網(wǎng)頁等方式獲取待爬取的鏈接 # 這里以一個示例鏈接列表作為例子 urls = ['<https://www.example.com/page1>', '<https://www.example.com/page2>', '<https://www.example.com/page3>'] for url in urls: self.urls.put(url) # 爬取頁面并處理結(jié)果 def crawl(self): while not self.urls.empty(): url = self.urls.get() try: response = requests.get(url, headers=self.headers) # 這里可以對response進行解析,獲取需要的信息 # 這里以抓取頁面title作為例子 title = response.text.split('<title>')[1].split('</title>')[0] self.results.append(title) except Exception as e: print(e) finally: self.urls.task_done() # 啟動多線程爬蟲 def run(self, thread_num=10): self.get_urls() for i in range(thread_num): t = threading.Thread(target=self.crawl) t.start() self.urls.join() # 將結(jié)果寫入文件或者數(shù)據(jù)庫 with self.lock: with open('result.txt', 'a') as f: for result in self.results: f.write(result + '\\n')
到此這篇關(guān)于Python3多線程處理爬蟲的實戰(zhàn)的文章就介紹到這了,更多相關(guān)Python3多線程爬蟲內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
PyMongo 查詢數(shù)據(jù)的實現(xiàn)
本文主要介紹了PyMongo 查詢數(shù)據(jù),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-06-06python輸出結(jié)果刷新及進度條的實現(xiàn)操作
這篇文章主要介紹了python輸出結(jié)果刷新及進度條的實現(xiàn)操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-07-07Python實現(xiàn)清理重復(fù)文件功能的示例代碼
在電腦上或多或少的存在一些重復(fù)文件,體積小的倒沒什么,如果體積大的就很占內(nèi)存了。本文用python制作了一個刪除重復(fù)文件的小工具,核心代碼很簡單,希望對你有所幫助2022-07-07Windows系統(tǒng)下實現(xiàn)pycharm運行.sh文件(本地運行和打開服務(wù)器終端)
PyCharm是Python開發(fā)的高效率IDE,但是很多時候需要同時開發(fā)Bash(shell)腳本,下面這篇文章主要給大家介紹了關(guān)于Windows系統(tǒng)下實現(xiàn)pycharm運行.sh文件(本地運行和打開服務(wù)器終端)的相關(guān)資料,需要的朋友可以參考下2022-09-09Python Pygame實戰(zhàn)之飛機大戰(zhàn)的實現(xiàn)
飛機大戰(zhàn)想必是很多人童年時期的經(jīng)典游戲,這篇文章主要給大家介紹了關(guān)于如何利用python中的Pygame模塊寫一個簡單的飛機大戰(zhàn)小游戲的相關(guān)資料,需要的朋友可以參考下2022-03-03