python分布式爬蟲中消息隊(duì)列知識點(diǎn)詳解
當(dāng)排隊(duì)等待人數(shù)過多的時候,我們需要設(shè)置一個等待區(qū)防止秩序混亂,同時再有新來的想要排隊(duì)也可以呆在這個地方。那么在python分布式爬蟲中,消息隊(duì)列就相當(dāng)于這樣的一個區(qū)域,爬蟲要進(jìn)入這個區(qū)域找尋自己想要的資源,當(dāng)然這個是一定的次序的,不然數(shù)據(jù)獲取就會出現(xiàn)重復(fù)。就下來我們就python分布式爬蟲中的消息隊(duì)列進(jìn)行詳細(xì)解釋,小伙伴們可以進(jìn)一步了解一下。
實(shí)現(xiàn)分布式爬取的關(guān)鍵是消息隊(duì)列,這個問題以消費(fèi)端為視角更容易理解。你的爬蟲程序部署到很多臺機(jī)器上,那么他們怎么知道自己要爬什么呢?總要有一個地方存儲了他們需要爬取的url吧,這樣他們才能工作。
假設(shè)有1萬個url需要爬取,而你有100個爬蟲程序部署在10臺機(jī)器上,每臺10個爬蟲程序在運(yùn)行,一個url被分給爬蟲程序后,其他爬蟲不能再獲得這個url,不然,就重復(fù)爬取了,理解吧,分布式爬蟲的關(guān)鍵是怎么把任務(wù)分給這些爬蟲。
有些促銷活動的現(xiàn)場會進(jìn)行抽獎活動,工作人員捧著一個透明的箱子,參與活動的人從箱子的小口處把手伸進(jìn)去隨機(jī)拿出一張折疊的紙條,這種模式與消息隊(duì)列十分相似。消息隊(duì)列就好比這個抽獎的箱子,消費(fèi)端的爬蟲程序就好比參與活動的顧客,爬蟲從消息隊(duì)列里拿出一個url任務(wù),然后進(jìn)行爬取,不同于抽獎活動時一個人只能拿一次,分布式爬蟲允許爬蟲在結(jié)束一個爬蟲任務(wù)后繼續(xù)從消息隊(duì)列里獲取任務(wù)。
使用redis的隊(duì)列做消息隊(duì)列
如果你只是簡單的寫一個分布式爬蟲,那么使用redis的隊(duì)列就可以了,它完全可以作為消息隊(duì)列來使用,下面的代碼是生產(chǎn)端的代碼示例
import redis r = redis.Redis(host='127.0.0.1', port=6379, password='yourpassword', db=1) # 生產(chǎn)10個url任務(wù) for i in range(10): r.lpush('url_queue', i)
相信看完以上的代碼示例后,小伙伴們已經(jīng)學(xué)會用redis創(chuàng)造一個消息隊(duì)列,用來方便爬蟲的獲取數(shù)據(jù)。本篇是以生產(chǎn)段的角度寫的代碼
到此這篇關(guān)于python分布式爬蟲中消息隊(duì)列知識點(diǎn)詳解的文章就介紹到這了,更多相關(guān)python分布式爬蟲中的消息隊(duì)列是什么內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python線程優(yōu)先級隊(duì)列知識點(diǎn)總結(jié)
- 如何通過Python實(shí)現(xiàn)RabbitMQ延遲隊(duì)列
- Python通過隊(duì)列來實(shí)現(xiàn)進(jìn)程間通信的示例
- Python collections.deque雙邊隊(duì)列原理詳解
- 基于python實(shí)現(xiàn)操作redis及消息隊(duì)列
- Python Celery異步任務(wù)隊(duì)列使用方法解析
- Python實(shí)現(xiàn)一個優(yōu)先級隊(duì)列的方法
- Python如何使用隊(duì)列方式實(shí)現(xiàn)多線程爬蟲
- Python多線程通信queue隊(duì)列用法實(shí)例分析
- python3 deque 雙向隊(duì)列創(chuàng)建與使用方法分析
- Python實(shí)現(xiàn)隊(duì)列的方法示例小結(jié)【數(shù)組,鏈表】
- 詳解python數(shù)據(jù)結(jié)構(gòu)之隊(duì)列Queue
相關(guān)文章
python實(shí)現(xiàn)將文件夾內(nèi)的每張圖片批量分割成多張
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)將文件夾內(nèi)的每張圖片批量分割成多張,具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-07-07Python應(yīng)用自動化部署工具Fabric原理及使用解析
這篇文章主要介紹了Python應(yīng)用自動化部署工具Fabric原理及使用解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-11-11Python 列表(List) 的三種遍歷方法實(shí)例 詳解
這篇文章主要介紹了Python 列表(List) 的三種遍歷方法實(shí)例 詳解的相關(guān)資料,需要的朋友可以參考下2017-04-04談?wù)凱ython:為什么類中的私有屬性可以在外部賦值并訪問
這篇文章主要介紹了談?wù)凱ython:為什么類中的私有屬性可以在外部賦值并訪問,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-03-03Pandas實(shí)現(xiàn)groupby分組統(tǒng)計(jì)方法實(shí)例
在數(shù)據(jù)處理的過程,有可能需要對一堆數(shù)據(jù)分組處理,例如對不同的列進(jìn)行agg聚合操作(mean,min,max等等),下面這篇文章主要給大家介紹了關(guān)于Pandas實(shí)現(xiàn)groupby分組統(tǒng)計(jì)方法的相關(guān)資料,需要的朋友可以參考下2023-06-06python selenium實(shí)現(xiàn)智聯(lián)招聘數(shù)據(jù)爬取
這篇文章主要介紹了python selenium實(shí)現(xiàn)智聯(lián)招聘數(shù)據(jù)爬取,需要的朋友可以參考下2021-04-04