Python抓取框架 Scrapy的架構(gòu)

更新時間：2016年08月12日 14:52:49 作者：mickelfeng

這篇文章主要為大家詳細介紹了Python抓取框架，針對Scrapy的架構(gòu)進行分析，感興趣的小伙伴們可以參考一下

最近在學Python，同時也在學如何使用python抓取數(shù)據(jù)，于是就被我發(fā)現(xiàn)了這個非常受歡迎的Python抓取框架Scrapy，下面一起學習下Scrapy的架構(gòu)，便于更好的使用這個工具。

一、概述

下圖顯示了Scrapy的大體架構(gòu)，其中包含了它的主要組件及系統(tǒng)的數(shù)據(jù)處理流程（綠色箭頭所示）。下面就來一個個解釋每個組件的作用及數(shù)據(jù)的處理過程。

二、組件

1、Scrapy Engine（Scrapy引擎）

Scrapy引擎是用來控制整個系統(tǒng)的數(shù)據(jù)處理流程，并進行事務處理的觸發(fā)。更多的詳細內(nèi)容可以看下面的數(shù)據(jù)處理流程。

2、Scheduler（調(diào)度）

調(diào)度程序從Scrapy引擎接受請求并排序列入隊列，并在Scrapy引擎發(fā)出請求后返還給他們。

3、Downloader（下載器）

下載器的主要職責是抓取網(wǎng)頁并將網(wǎng)頁內(nèi)容返還給蜘蛛( Spiders)。

4、Spiders（蜘蛛）

蜘蛛是有Scrapy用戶自己定義用來解析網(wǎng)頁并抓取制定URL返回的內(nèi)容的類，每個蜘蛛都能處理一個域名或一組域名。換句話說就是用來定義特定網(wǎng)站的抓取和解析規(guī)則。

蜘蛛的整個抓取流程（周期）是這樣的：

1).首先獲取第一個URL的初始請求，當請求返回后調(diào)取一個回調(diào)函數(shù)。第一個請求是通過調(diào)用start_requests()方法。該方法默認從start_urls中的Url中生成請求，并執(zhí)行解析來調(diào)用回調(diào)函數(shù)。
2).在回調(diào)函數(shù)中，你可以解析網(wǎng)頁響應并返回項目對象和請求對象或兩者的迭代。這些請求也將包含一個回調(diào)，然后被Scrapy下載，然后有指定的回調(diào)處理。
3).在回調(diào)函數(shù)中，你解析網(wǎng)站的內(nèi)容，同程使用的是Xpath選擇器（但是你也可以使用BeautifuSoup, lxml或其他任何你喜歡的程序），并生成解析的數(shù)據(jù)項。
4).最后，從蜘蛛返回的項目通常會進駐到項目管道。

5、Item Pipeline（項目管道）

項目管道的主要責任是負責處理有蜘蛛從網(wǎng)頁中抽取的項目，他的主要任務是清晰、驗證和存儲數(shù)據(jù)。當頁面被蜘蛛解析后，將被發(fā)送到項目管道，并經(jīng)過幾個特定的次序處理數(shù)據(jù)。每個項目管道的組件都是有一個簡單的方法組成的Python類。他們獲取了項目并執(zhí)行他們的方法，同時他們還需要確定的是是否需要在項目管道中繼續(xù)執(zhí)行下一步或是直接丟棄掉不處理。

項目管道通常執(zhí)行的過程有：

1).清洗HTML數(shù)據(jù)
2).驗證解析到的數(shù)據(jù)（檢查項目是否包含必要的字段）
3).檢查是否是重復數(shù)據(jù)（如果重復就刪除）
4).將解析到的數(shù)據(jù)存儲到數(shù)據(jù)庫中

6、Downloader middlewares（下載器中間件）

下載中間件是位于Scrapy引擎和下載器之間的鉤子框架，主要是處理Scrapy引擎與下載器之間的請求及響應。它提供了一個自定義的代碼的方式來拓展Scrapy的功能。下載中間器是一個處理請求和響應的鉤子框架。他是輕量級的，對Scrapy盡享全局控制的底層的系統(tǒng)。

7、Spider middlewares（蜘蛛中間件）

蜘蛛中間件是介于Scrapy引擎和蜘蛛之間的鉤子框架，主要工作是處理蜘蛛的響應輸入和請求輸出。它提供一個自定義代碼的方式來拓展Scrapy的功能。蛛中間件是一個掛接到Scrapy的蜘蛛處理機制的框架，你可以插入自定義的代碼來處理發(fā)送給蜘蛛的請求和返回蜘蛛獲取的響應內(nèi)容和項目。

8、Scheduler middlewares（調(diào)度中間件）

調(diào)度中間件是介于Scrapy引擎和調(diào)度之間的中間件，主要工作是處從Scrapy引擎發(fā)送到調(diào)度的請求和響應。他提供了一個自定義的代碼來拓展Scrapy的功能。

三、數(shù)據(jù)處理流程

Scrapy的整個數(shù)據(jù)處理流程有Scrapy引擎進行控制，其主要的運行方式為：

引擎打開一個域名，時蜘蛛處理這個域名，并讓蜘蛛獲取第一個爬取的URL。
引擎從蜘蛛那獲取第一個需要爬取的URL，然后作為請求在調(diào)度中進行調(diào)度。
引擎從調(diào)度那獲取接下來進行爬取的頁面。
調(diào)度將下一個爬取的URL返回給引擎，引擎將他們通過下載中間件發(fā)送到下載器。
當網(wǎng)頁被下載器下載完成以后，響應內(nèi)容通過下載中間件被發(fā)送到引擎。
引擎收到下載器的響應并將它通過蜘蛛中間件發(fā)送到蜘蛛進行處理。
蜘蛛處理響應并返回爬取到的項目，然后給引擎發(fā)送新的請求。
引擎將抓取到的項目項目管道，并向調(diào)度發(fā)送請求。
系統(tǒng)重復第二部后面的操作，直到調(diào)度中沒有請求，然后斷開引擎與域之間的聯(lián)系。

四、驅(qū)動器

Scrapy是由Twisted寫的一個受歡迎的Python事件驅(qū)動網(wǎng)絡框架，它使用的是非堵塞的異步處理。

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: