快捷導(dǎo)航

python爬蟲分布式獲取數(shù)據(jù)的實(shí)例方法

更新時(shí)間：2020年11月26日 14:51:37 作者：小妮淺淺

在本篇內(nèi)容里小編給大家整理的是一篇關(guān)于python爬蟲分布式獲取數(shù)據(jù)的實(shí)例方法，有興趣的朋友們可以參考下。

在我們進(jìn)行衛(wèi)生大掃除的時(shí)候，因?yàn)楣ぷ魅蝿?wù)較多，所以我們會(huì)進(jìn)行分工，每個(gè)人負(fù)責(zé)不同的打掃項(xiàng)目。同樣分工合作的理念，在python分布式爬蟲中也得到了應(yīng)用。我們需要給不同的爬蟲分配指令，讓它們?nèi)シ诸^行動(dòng)獲取同一個(gè)網(wǎng)站的數(shù)據(jù)。那么這些爬蟲是怎么分工搜集數(shù)據(jù)的呢？感興趣的小伙伴，我們可以通過下面的示例進(jìn)行解惑。

假設(shè)我有三臺(tái)爬蟲服務(wù)器A、B和C。我想讓我所有的賬號(hào)登錄任務(wù)分散到三臺(tái)服務(wù)器、讓用戶抓取在A和B上執(zhí)行，讓粉絲和關(guān)注抓取在C上執(zhí)行，那么啟動(dòng)A、B、C三個(gè)服務(wù)器的celery worker的命令就分別是

celery -A tasks.workers -Q login_queue,user_crawler worker -l info -c 1 # A服務(wù)器和B服務(wù)器啟動(dòng)worker的命令，它們只會(huì)執(zhí)行登錄和用戶信息抓取任務(wù)。

celery -A tasks.workers -Q login_queue,fans_followers worker -l info -c 1 # C服務(wù)器啟動(dòng)worker的命令，它只會(huì)執(zhí)行登錄、粉絲和關(guān)注抓取任務(wù)。

然后我們通過命令行或者代碼（如下）就能發(fā)送所有任務(wù)給各個(gè)節(jié)點(diǎn)執(zhí)行了

# coding:utf-8
from tasks.workers import app
from page_get import user as user_get
from db.seed_ids import get_seed_ids, get_seed_by_id, insert_seeds, set_seed_other_crawled
@app.task(ignore_result=True)
def crawl_follower_fans(uid):
  seed = get_seed_by_id(uid)
  if seed.other_crawled == 0:
    rs = user_get.get_fans_or_followers_ids(uid, 1

    rs.extend(user_get.get_fans_or_followers_ids(uid, 2))
    datas = set(rs)
    # 重復(fù)數(shù)據(jù)跳過插入
    if datas:
      insert_seeds(datas)
    set_seed_other_crawled(uid)
@app.task(ignore_result=True)
def crawl_person_infos(uid):
  ""
  根據(jù)用戶i來爬取用戶相關(guān)資料和用戶的關(guān)注數(shù)和粉絲數(shù)（由于微博服務(wù)端限制，默認(rèn)爬取前五頁，企業(yè)號(hào)的關(guān)注和粉絲也不能查看）
  :param uid: 用戶id
  :return:
  """
  if not uid:
    return
  # 由于與別的任務(wù)共享數(shù)據(jù)表，所以需要先判斷數(shù)據(jù)庫(kù)是否有該用戶信息，再進(jìn)行抓取
  user = user_get.get_profile(uid)
  # 不抓取企業(yè)號(hào)
  if user.verify_type == 2:
    set_seed_other_crawled(uid)
    return
  app.send_task('tasks.user.crawl_follower_fans', args=(uid,), queue='fans_followers',
         routing_key='for_fans_followers')
@app.task(ignore_result=True)
def excute_user_task():
  seeds = get_seed_ids()
  if seeds:
    for seed in seeds:
      # 在send_task的時(shí)候指定任務(wù)隊(duì)列
      app.send_task('tasks.user.crawl_person_infos', args=(seed.uid,), queue='user_crawler',
             routing_key='for_user_info')

分布式爬蟲架構(gòu)圖

到此這篇關(guān)于python爬蟲分布式獲取數(shù)據(jù)的實(shí)例方法的文章就介紹到這了,更多相關(guān)python爬蟲如何分布式獲取數(shù)據(jù)?內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: