腳本之家服務器常用軟件

快捷導航

python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼

更新時間：2021年01月27日 11:11:15 作者：Kosmoo

這篇文章主要介紹了python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

1. 前言。

1.1. 需求背景。

每天抓取的是同一份商品的數(shù)據(jù)，用來做趨勢分析。
要求每天都需要抓一份，也僅限抓取一份數(shù)據(jù)。
但是整個爬取數(shù)據(jù)的過程在時間上并不確定，受本地網(wǎng)絡，代理速度，抓取數(shù)據(jù)量有關(guān)，一般情況下在20小時左右，極少情況下會超過24小時。

1.2. 實現(xiàn)功能。

通過以下三步，保證爬蟲能自動隔天抓取數(shù)據(jù)：
每天凌晨00：01啟動監(jiān)控腳本，監(jiān)控爬蟲的運行狀態(tài)，一旦爬蟲進入空閑狀態(tài)，啟動爬蟲。

一旦爬蟲執(zhí)行完畢，自動退出腳本，結(jié)束今天的任務。

一旦腳本距離啟動時間超過24小時，自動退出腳本，等待第二天的監(jiān)控腳本啟動，重復這三步。

2. 環(huán)境。

python 3.6.1

系統(tǒng)：win7

IDE：pycharm

安裝過scrapy

3. 設計思路。

3.1. 前提：

目前爬蟲是通過scrapy模塊自帶的cmdline.execute來啟動的。

from scrapy import cmdline
cmdline.execute('scrapy crawl mySpider'.split())

3.2. 將自動執(zhí)行腳本做到scrapy爬蟲的外部

（1）每天凌晨00：01啟動腳本（控制腳本的存活時間為24小時），監(jiān)測爬蟲的運行狀態(tài)（需要用一個標記信息來表示爬蟲的狀態(tài)：運行還是停止）。

如果爬蟲處于運行狀態(tài)（前一天爬取數(shù)據(jù)尚未結(jié)束），進入第（2）步；
如果爬蟲處于非運行狀態(tài)（前一天的爬取任務已完成，今天的尚未開始），進入第（3）步；

（2）腳本進入等待階段，每隔10分鐘，檢查一下爬蟲的運行狀態(tài)，如（1）。但是一旦發(fā)現(xiàn)，腳本的等待時間超過了24小時，則自動退出腳本，因為第二天的監(jiān)測腳本已經(jīng)開始運行了，接替了它的任務。

（3）做一些爬蟲啟動前的準備工作（刪除用來續(xù)爬的文件，防止爬蟲不運行了），啟動爬蟲爬取數(shù)據(jù)，待爬蟲正常結(jié)束后，退出腳本，完成當天的爬取任務。

4. 準備工作。

4.1. 標記爬蟲的運行狀態(tài)。

通過判斷文件是否存在的方式來判斷爬蟲是否處于運行狀態(tài)：

在爬蟲啟動時，創(chuàng)建一個isRunning.txt文件。
在爬蟲結(jié)束時，刪除這個isRunning.txt文件。

那么isRunning.txt存在，就說明爬蟲正在運行；文件不存在，就說明爬蟲不在運行。

# 文件pipelines.py
# 爬蟲啟動時
checkFile = "isRunning.txt"
class myPipeline:
  def open_spider(self, spider):
    self.client = MongoClient('localhost:27017') # 連接Mongodb
    self.db = self.client['mydata']        # 待存儲數(shù)據(jù)的數(shù)據(jù)庫mydata
    f = open(checkFile, "w")     # 創(chuàng)建一個文件，代表爬蟲在運行中
    f.close()

# 文件pipelines.py
# 爬蟲正常結(jié)束時
checkFile = "isRunning.txt"
class myPipeline:
  def close_spider(self, spider):
    self.client.close()
    isFileExsit = os.path.isfile(checkFile)
    if isFileExsit:
      os.remove(checkFile)

4.2. 爬蟲支持續(xù)爬，能隨時暫停，方便調(diào)試。

# 在scrapy項目中添加start.py文件，用于啟動爬蟲
from scrapy import cmdline
# 在爬蟲運行過程中，會自動將狀態(tài)信息存儲在crawls/storeMyRequest目錄下，支持續(xù)爬
cmdline.execute('scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest'.split())
# Note:若想支持續(xù)爬，在ctrl+c終止爬蟲時，只能按一次，爬蟲在終止時需要進行善后工作，切勿連續(xù)多次按ctrl+c

這里寫圖片描述

4.3. Log按照每天的日期命名，方便查看和調(diào)試

設置Log等級：

# 文件mySpider.py
class mySpider(CrawlSpider):
  name = "mySpider"
  allowed_domains = ['http://photo.poco.cn/']
  custom_settings = {
    'LOG_LEVEL':'INFO', # 減少Log輸出量，僅保留必要的信息
    # ...... 在爬蟲內(nèi)部用custom_setting可以讓這個配置信息僅對這一個爬蟲生效
  }

以日期為Log文件命名

# 文件settings.py
import datetime
BOT_NAME = 'mySpider'
ROBOTSTXT_OBEY = False
startDate = datetime.datetime.now().strftime('%Y%m%d')
LOG_FILE=f"mySpiderlog{startDate}.txt"

4.4. 為數(shù)據(jù)按日期存儲到不同的表（mongodb的集合）中

# 文件pipelines.py
import datetime
GALANCE=f'galance{datetime.datetime.now().strftime("%Y%m%d")}' # 表名

class myPipeline:
  def open_spider(self, spider):
    self.client = MongoClient('localhost:27017') # 連接Mongodb
    self.db = self.client['mydata']        # 待存儲數(shù)據(jù)的數(shù)據(jù)庫mydata

self.db[GALANCE].insert(dict(item))

這里寫圖片描述

4.5. 編寫批處理文件啟動爬蟲

# 文件run.bat
cd /d F:/newClawer20170831/mySpider
call python main.py
pause

這里寫圖片描述

5. 實現(xiàn)代碼

5.1. 編寫python腳本

# 文件timerStartDaily.py
from scrapy import cmdline
import datetime
import time
import shutil
import os

recoderDir = r"crawls"  # 這是為了爬蟲能夠續(xù)爬而創(chuàng)建的目錄，存儲續(xù)爬需要的數(shù)據(jù)
checkFile = "isRunning.txt" # 爬蟲是否在運行的標志

startTime = datetime.datetime.now()
print(f"startTime = {startTime}")

i = 0
miniter = 0
while True:
  isRunning = os.path.isfile(checkFile)
  if not isRunning:            # 爬蟲不在執(zhí)行，開始啟動爬蟲
    # 在爬蟲啟動之前處理一些事情，清掉JOBDIR = crawls
    isExsit = os.path.isdir(recoderDir) # 檢查JOBDIR目錄crawls是否存在
    print(f"mySpider not running, ready to start. isExsit:{isExsit}")
    if isExsit:
      removeRes = shutil.rmtree(recoderDir) # 刪除續(xù)爬目錄crawls及目錄下所有文件
      print(f"At time:{datetime.datetime.now()}, delete res:{removeRes}")
    else:
      print(f"At time:{datetime.datetime.now()}, Dir:{recoderDir} is not exsit.")
    time.sleep(20)
    clawerTime = datetime.datetime.now()
    waitTime = clawerTime - startTime
    print(f"At time:{clawerTime}, start clawer: mySpider !!!, waitTime:{waitTime}")
    cmdline.execute('scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest'.split())
    break #爬蟲結(jié)束之后，退出腳本
  else:
    print(f"At time:{datetime.datetime.now()}, mySpider is running, sleep to wait.")
  i += 1
  time.sleep(600)    # 每10分鐘檢查一次
  miniter += 10
  if miniter >= 1440:  # 等待滿24小時，自動退出監(jiān)控腳本
    break

5.2. 編寫bat批處理文件

# 文件runTimerRunDaily.bat
cd /d F:/newClawer20170831/mySpider
call python timerStartDaily.py
pause

6. 部署。

6.1. 添加計劃任務。

參考以下這篇博客部署windows計劃任務：

http://www.dbjr.com.cn/article/204879.htm

有關(guān)windows計劃任務相關(guān)設置的詳細說明如下：

https://technet.microsoft.com/zh-cn/library/cc722178.aspx

6.2. 注意事項。

（1）在添加計劃任務時，要按照如下圖進行勾選（只在用戶登錄時運行），才能彈出下面的cmd任務界面，方便觀察和調(diào)試。

這里寫圖片描述

（2）由于爬蟲運行時間很長，如果按照默認設置，在凌晨運行實例時，上一次啟動尚未結(jié)束，會導致這次啟動失敗，所以要更改默認設置為（如果此任務已經(jīng)運行：并行運行新實例。保護機制在于每個啟動腳本在等待24小時候會自動退出，來保證不會重復啟動）。

這里寫圖片描述

（3）如果想支持續(xù)傳，只能按一次 ctrl + c 來停止爬蟲運行。因為終止爬蟲時，爬蟲需要做一些善后工作，如果連續(xù)按多次ctrl + c來停止爬蟲，爬蟲將來不及善后，會導致無法續(xù)爬。 6.3. 效果展示。

正常執(zhí)行完成：

這里寫圖片描述

正在執(zhí)行中：

這里寫圖片描述

到此這篇關(guān)于python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼的文章就介紹到這了,更多相關(guān)python scrapy定時抓取內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼

1. 前言。

1.1. 需求背景。

1.2. 實現(xiàn)功能。

2. 環(huán)境。

3. 設計思路。

4. 準備工作。

4.1. 標記爬蟲的運行狀態(tài)。

4.2. 爬蟲支持續(xù)爬，能隨時暫停，方便調(diào)試。

4.3. Log按照每天的日期命名，方便查看和調(diào)試

4.5. 編寫批處理文件啟動爬蟲

5. 實現(xiàn)代碼

5.1. 編寫python腳本

6. 部署。

6.1. 添加計劃任務。

6.2. 注意事項。

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python實現(xiàn)scrapy爬蟲每天定時抓取數(shù)據(jù)的示例代碼

1. 前言。

1.1. 需求背景。

1.2. 實現(xiàn)功能。

2. 環(huán)境。

3. 設計思路。

4. 準備工作。

4.1. 標記爬蟲的運行狀態(tài)。

4.2. 爬蟲支持續(xù)爬，能隨時暫停，方便調(diào)試。

4.3. Log按照每天的日期命名，方便查看和調(diào)試

4.5. 編寫批處理文件啟動爬蟲

5. 實現(xiàn)代碼

5.1. 編寫python腳本

6. 部署。

6.1. 添加計劃任務。

6.2. 注意事項。

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

1. 前言。

3. 設計思路。

4. 準備工作。

4.2. 爬蟲支持續(xù)爬，能隨時暫停，方便調(diào)試。

4.3. Log按照每天的日期命名，方便查看和調(diào)試

6. 部署。

6.1. 添加計劃任務。

6.2. 注意事項。