欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲分布式獲取數(shù)據(jù)的實(shí)例方法

 更新時(shí)間:2020年11月26日 14:51:37   作者:小妮淺淺  
在本篇內(nèi)容里小編給大家整理的是一篇關(guān)于python爬蟲分布式獲取數(shù)據(jù)的實(shí)例方法,有興趣的朋友們可以參考下。

在我們進(jìn)行衛(wèi)生大掃除的時(shí)候,因?yàn)楣ぷ魅蝿?wù)較多,所以我們會(huì)進(jìn)行分工,每個(gè)人負(fù)責(zé)不同的打掃項(xiàng)目。同樣分工合作的理念,在python分布式爬蟲中也得到了應(yīng)用。我們需要給不同的爬蟲分配指令,讓它們?nèi)シ诸^行動(dòng)獲取同一個(gè)網(wǎng)站的數(shù)據(jù)。那么這些爬蟲是怎么分工搜集數(shù)據(jù)的呢?感興趣的小伙伴,我們可以通過下面的示例進(jìn)行解惑。

假設(shè)我有三臺(tái)爬蟲服務(wù)器A、B和C。我想讓我所有的賬號(hào)登錄任務(wù)分散到三臺(tái)服務(wù)器、讓用戶抓取在A和B上執(zhí)行,讓粉絲和關(guān)注抓取在C上執(zhí)行,那么啟動(dòng)A、B、C三個(gè)服務(wù)器的celery worker的命令就分別是

celery -A tasks.workers -Q login_queue,user_crawler worker -l info -c 1 # A服務(wù)器和B服務(wù)器啟動(dòng)worker的命令,它們只會(huì)執(zhí)行登錄和用戶信息抓取任務(wù)。

celery -A tasks.workers -Q login_queue,fans_followers worker -l info -c 1 # C服務(wù)器啟動(dòng)worker的命令,它只會(huì)執(zhí)行登錄、粉絲和關(guān)注抓取任務(wù)。

然后我們通過命令行或者代碼(如下)就能發(fā)送所有任務(wù)給各個(gè)節(jié)點(diǎn)執(zhí)行了

# coding:utf-8
from tasks.workers import app
from page_get import user as user_get
from db.seed_ids import get_seed_ids, get_seed_by_id, insert_seeds, set_seed_other_crawled
@app.task(ignore_result=True)
def crawl_follower_fans(uid):
  seed = get_seed_by_id(uid)
  if seed.other_crawled == 0:
    rs = user_get.get_fans_or_followers_ids(uid, 1

    rs.extend(user_get.get_fans_or_followers_ids(uid, 2))
    datas = set(rs)
    # 重復(fù)數(shù)據(jù)跳過插入
    if datas:
      insert_seeds(datas)
    set_seed_other_crawled(uid)
@app.task(ignore_result=True)
def crawl_person_infos(uid):
  ""
  根據(jù)用戶i來爬取用戶相關(guān)資料和用戶的關(guān)注數(shù)和粉絲數(shù)(由于微博服務(wù)端限制,默認(rèn)爬取前五頁,企業(yè)號(hào)的關(guān)注和粉絲也不能查看)
  :param uid: 用戶id
  :return:
  """
  if not uid:
    return
  # 由于與別的任務(wù)共享數(shù)據(jù)表,所以需要先判斷數(shù)據(jù)庫(kù)是否有該用戶信息,再進(jìn)行抓取
  user = user_get.get_profile(uid)
  # 不抓取企業(yè)號(hào)
  if user.verify_type == 2:
    set_seed_other_crawled(uid)
    return
  app.send_task('tasks.user.crawl_follower_fans', args=(uid,), queue='fans_followers',
         routing_key='for_fans_followers')
@app.task(ignore_result=True)
def excute_user_task():
  seeds = get_seed_ids()
  if seeds:
    for seed in seeds:
      # 在send_task的時(shí)候指定任務(wù)隊(duì)列
      app.send_task('tasks.user.crawl_person_infos', args=(seed.uid,), queue='user_crawler',
             routing_key='for_user_info')

分布式爬蟲架構(gòu)圖

到此這篇關(guān)于python爬蟲分布式獲取數(shù)據(jù)的實(shí)例方法的文章就介紹到這了,更多相關(guān)python爬蟲如何分布式獲取數(shù)據(jù)?內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 快速解決jupyter notebook啟動(dòng)需要密碼的問題

    快速解決jupyter notebook啟動(dòng)需要密碼的問題

    這篇文章主要介紹了快速解決jupyter notebook啟動(dòng)需要密碼的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • Python遠(yuǎn)程控制Windows服務(wù)器的方法總結(jié)

    Python遠(yuǎn)程控制Windows服務(wù)器的方法總結(jié)

    在信息時(shí)代的洪流中,掌握一門編程語言已經(jīng)成為一項(xiàng)必備技能,Python,這門以簡(jiǎn)潔、易學(xué)、強(qiáng)大著稱的編程語言,更是成為無數(shù)開發(fā)者的大寶劍,今天,我們要探討的就是如何用 Python 遠(yuǎn)程控制 Windows 服務(wù)器,需要的朋友可以參考下
    2024-07-07
  • 關(guān)于python3的ThreadPoolExecutor線程池大小設(shè)置

    關(guān)于python3的ThreadPoolExecutor線程池大小設(shè)置

    這篇文章主要介紹了關(guān)于python3的ThreadPoolExecutor線程池大小設(shè)置,線程池的理想大小取決于被提交任務(wù)的類型以及所部署系統(tǒng)的特性,需要的朋友可以參考下
    2023-04-04
  • 使用Django+Vue編寫一個(gè)文件上傳器

    使用Django+Vue編寫一個(gè)文件上傳器

    本教程中,我將會(huì)使用Django和Vue創(chuàng)建一個(gè)支持多文件上傳的文件上傳器,您可以在單個(gè)文件和多個(gè)文件上傳之間選擇在應(yīng)用中進(jìn)行上傳操作,文章通過代碼示例截殺的非常詳細(xì),需要的朋友可以參考下
    2023-11-11
  • Python Sqlite3以字典形式返回查詢結(jié)果的實(shí)現(xiàn)方法

    Python Sqlite3以字典形式返回查詢結(jié)果的實(shí)現(xiàn)方法

    下面小編就為大家?guī)硪黄狿ython Sqlite3以字典形式返回查詢結(jié)果的實(shí)現(xiàn)方法。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2016-10-10
  • python+opencv+caffe+攝像頭做目標(biāo)檢測(cè)的實(shí)例代碼

    python+opencv+caffe+攝像頭做目標(biāo)檢測(cè)的實(shí)例代碼

    今天小編就為大家分享一篇python+opencv+caffe+攝像頭做目標(biāo)檢測(cè)的實(shí)例代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-08-08
  • python判斷字符串是否是json格式方法分享

    python判斷字符串是否是json格式方法分享

    這篇文章主要介紹了python判斷字符串是否是json格式方法分享,具有一定參考價(jià)值,需要的朋友可以了解下。
    2017-11-11
  • 提升Python編程效率的列表操作方法示例

    提升Python編程效率的列表操作方法示例

    這篇文章主要為大家介紹了提升Python編程效率的列表操作方法示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-10-10
  • Django基礎(chǔ)知識(shí)與基本應(yīng)用入門教程

    Django基礎(chǔ)知識(shí)與基本應(yīng)用入門教程

    這篇文章主要介紹了Django基礎(chǔ)知識(shí)與基本應(yīng)用,結(jié)合實(shí)例形式分析了Django框架基本的項(xiàng)目創(chuàng)建、啟動(dòng)、查看版本等操作,并結(jié)合一個(gè)簡(jiǎn)單的blog應(yīng)用示例分析了Django的基本使用方法,需要的朋友可以參考下
    2018-07-07
  • Python基于隨機(jī)采樣一至性實(shí)現(xiàn)擬合橢圓

    Python基于隨機(jī)采樣一至性實(shí)現(xiàn)擬合橢圓

    這篇文章主要為大家詳細(xì)介紹了Python如何基于隨機(jī)采樣一至性實(shí)現(xiàn)擬合橢圓,文中的示例代碼講解詳細(xì),具有一定的借鑒價(jià)值,感興趣的可以了解一下
    2022-11-11

最新評(píng)論