python爬蟲分布式獲取數(shù)據(jù)的實(shí)例方法
在我們進(jìn)行衛(wèi)生大掃除的時(shí)候,因?yàn)楣ぷ魅蝿?wù)較多,所以我們會(huì)進(jìn)行分工,每個(gè)人負(fù)責(zé)不同的打掃項(xiàng)目。同樣分工合作的理念,在python分布式爬蟲中也得到了應(yīng)用。我們需要給不同的爬蟲分配指令,讓它們?nèi)シ诸^行動(dòng)獲取同一個(gè)網(wǎng)站的數(shù)據(jù)。那么這些爬蟲是怎么分工搜集數(shù)據(jù)的呢?感興趣的小伙伴,我們可以通過下面的示例進(jìn)行解惑。
假設(shè)我有三臺(tái)爬蟲服務(wù)器A、B和C。我想讓我所有的賬號(hào)登錄任務(wù)分散到三臺(tái)服務(wù)器、讓用戶抓取在A和B上執(zhí)行,讓粉絲和關(guān)注抓取在C上執(zhí)行,那么啟動(dòng)A、B、C三個(gè)服務(wù)器的celery worker的命令就分別是
celery -A tasks.workers -Q login_queue,user_crawler worker -l info -c 1 # A服務(wù)器和B服務(wù)器啟動(dòng)worker的命令,它們只會(huì)執(zhí)行登錄和用戶信息抓取任務(wù)。
celery -A tasks.workers -Q login_queue,fans_followers worker -l info -c 1 # C服務(wù)器啟動(dòng)worker的命令,它只會(huì)執(zhí)行登錄、粉絲和關(guān)注抓取任務(wù)。
然后我們通過命令行或者代碼(如下)就能發(fā)送所有任務(wù)給各個(gè)節(jié)點(diǎn)執(zhí)行了
# coding:utf-8 from tasks.workers import app from page_get import user as user_get from db.seed_ids import get_seed_ids, get_seed_by_id, insert_seeds, set_seed_other_crawled @app.task(ignore_result=True) def crawl_follower_fans(uid): seed = get_seed_by_id(uid) if seed.other_crawled == 0: rs = user_get.get_fans_or_followers_ids(uid, 1 rs.extend(user_get.get_fans_or_followers_ids(uid, 2)) datas = set(rs) # 重復(fù)數(shù)據(jù)跳過插入 if datas: insert_seeds(datas) set_seed_other_crawled(uid) @app.task(ignore_result=True) def crawl_person_infos(uid): "" 根據(jù)用戶i來爬取用戶相關(guān)資料和用戶的關(guān)注數(shù)和粉絲數(shù)(由于微博服務(wù)端限制,默認(rèn)爬取前五頁,企業(yè)號(hào)的關(guān)注和粉絲也不能查看) :param uid: 用戶id :return: """ if not uid: return # 由于與別的任務(wù)共享數(shù)據(jù)表,所以需要先判斷數(shù)據(jù)庫(kù)是否有該用戶信息,再進(jìn)行抓取 user = user_get.get_profile(uid) # 不抓取企業(yè)號(hào) if user.verify_type == 2: set_seed_other_crawled(uid) return app.send_task('tasks.user.crawl_follower_fans', args=(uid,), queue='fans_followers', routing_key='for_fans_followers') @app.task(ignore_result=True) def excute_user_task(): seeds = get_seed_ids() if seeds: for seed in seeds: # 在send_task的時(shí)候指定任務(wù)隊(duì)列 app.send_task('tasks.user.crawl_person_infos', args=(seed.uid,), queue='user_crawler', routing_key='for_user_info')
分布式爬蟲架構(gòu)圖
到此這篇關(guān)于python爬蟲分布式獲取數(shù)據(jù)的實(shí)例方法的文章就介紹到這了,更多相關(guān)python爬蟲如何分布式獲取數(shù)據(jù)?內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
快速解決jupyter notebook啟動(dòng)需要密碼的問題
這篇文章主要介紹了快速解決jupyter notebook啟動(dòng)需要密碼的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-04-04Python遠(yuǎn)程控制Windows服務(wù)器的方法總結(jié)
在信息時(shí)代的洪流中,掌握一門編程語言已經(jīng)成為一項(xiàng)必備技能,Python,這門以簡(jiǎn)潔、易學(xué)、強(qiáng)大著稱的編程語言,更是成為無數(shù)開發(fā)者的大寶劍,今天,我們要探討的就是如何用 Python 遠(yuǎn)程控制 Windows 服務(wù)器,需要的朋友可以參考下2024-07-07關(guān)于python3的ThreadPoolExecutor線程池大小設(shè)置
這篇文章主要介紹了關(guān)于python3的ThreadPoolExecutor線程池大小設(shè)置,線程池的理想大小取決于被提交任務(wù)的類型以及所部署系統(tǒng)的特性,需要的朋友可以參考下2023-04-04Python Sqlite3以字典形式返回查詢結(jié)果的實(shí)現(xiàn)方法
下面小編就為大家?guī)硪黄狿ython Sqlite3以字典形式返回查詢結(jié)果的實(shí)現(xiàn)方法。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2016-10-10python+opencv+caffe+攝像頭做目標(biāo)檢測(cè)的實(shí)例代碼
今天小編就為大家分享一篇python+opencv+caffe+攝像頭做目標(biāo)檢測(cè)的實(shí)例代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-08-08Django基礎(chǔ)知識(shí)與基本應(yīng)用入門教程
這篇文章主要介紹了Django基礎(chǔ)知識(shí)與基本應(yīng)用,結(jié)合實(shí)例形式分析了Django框架基本的項(xiàng)目創(chuàng)建、啟動(dòng)、查看版本等操作,并結(jié)合一個(gè)簡(jiǎn)單的blog應(yīng)用示例分析了Django的基本使用方法,需要的朋友可以參考下2018-07-07Python基于隨機(jī)采樣一至性實(shí)現(xiàn)擬合橢圓
這篇文章主要為大家詳細(xì)介紹了Python如何基于隨機(jī)采樣一至性實(shí)現(xiàn)擬合橢圓,文中的示例代碼講解詳細(xì),具有一定的借鑒價(jià)值,感興趣的可以了解一下2022-11-11