欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

詳解Python的爬蟲框架 Scrapy

 更新時間:2020年08月03日 09:05:57   作者:看云  
這篇文章主要介紹了Python的爬蟲框架 Scrapy的相關資料,文中講解非常細致,代碼幫助大家更好的理解和學習,感興趣的朋友可以了解下

網(wǎng)絡爬蟲,是在網(wǎng)上進行數(shù)據(jù)抓取的程序,使用它能夠抓取特定網(wǎng)頁的HTML數(shù)據(jù)。雖然我們利用一些庫開發(fā)一個爬蟲程序,但是使用框架可以大大提高效率,縮短開發(fā)時間。Scrapy是一個使用Python編寫的,輕量級的,簡單輕巧,并且使用起來非常的方便。

一、概述

下圖顯示了Scrapy的大體架構,其中包含了它的主要組件及系統(tǒng)的數(shù)據(jù)處理流程(綠色箭頭所示)。下面就來一個個解釋每個組件的作用及數(shù)據(jù)的處理過程(注:圖片來自互聯(lián)網(wǎng))。

二、組件

1、Scrapy Engine(Scrapy引擎)

Scrapy引擎是用來控制整個系統(tǒng)的數(shù)據(jù)處理流程,并進行事務處理的觸發(fā)。更多的詳細內容可以看下面的數(shù)據(jù)處理流程。

2、Scheduler(調度)

調度程序從Scrapy引擎接受請求并排序列入隊列,并在Scrapy引擎發(fā)出請求后返還給他們。

3、Downloader(下載器)

下載器的主要職責是抓取網(wǎng)頁并將網(wǎng)頁內容返還給蜘蛛( Spiders)。

4、Spiders(蜘蛛)

蜘蛛是有Scrapy用戶自己定義用來解析網(wǎng)頁并抓取制定URL返回的內容的類,每個蜘蛛都能處理一個域名或一組域名。換句話說就是用來定義特定網(wǎng)站的抓取和解析規(guī)則。

蜘蛛的整個抓取流程(周期)是這樣的:

首先獲取第一個URL的初始請求,當請求返回后調取一個回調函數(shù)。第一個請求是通過調用start_requests()方法。該方法默認從start_urls中的Url中生成請求,并執(zhí)行解析來調用回調函數(shù)。

在回調函數(shù)中,你可以解析網(wǎng)頁響應并返回項目對象和請求對象或兩者的迭代。這些請求也將包含一個回調,然后被Scrapy下載,然后有指定的回調處理。

在回調函數(shù)中,你解析網(wǎng)站的內容,同程使用的是Xpath選擇器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜歡的程序),并生成解析的數(shù)據(jù)項。

最后,從蜘蛛返回的項目通常會進駐到項目管道。

5、Item Pipeline(項目管道)

項目管道的主要責任是負責處理有蜘蛛從網(wǎng)頁中抽取的項目,他的主要任務是清晰、驗證和存儲數(shù)據(jù)。當頁面被蜘蛛解析后,將被發(fā)送到項目管道,并經(jīng)過幾個特定的次序處理數(shù)據(jù)。每個項目管道的組件都是有一個簡單的方法組成的Python類。他們獲取了項目并執(zhí)行他們的方法,同時他們還需要確定的是是否需要在項目管道中繼續(xù)執(zhí)行下一步或是直接丟棄掉不處理。

項目管道通常執(zhí)行的過程有:

清洗HTML數(shù)據(jù)
驗證解析到的數(shù)據(jù)(檢查項目是否包含必要的字段)
檢查是否是重復數(shù)據(jù)(如果重復就刪除)
將解析到的數(shù)據(jù)存儲到數(shù)據(jù)庫中

6、Downloader middlewares(下載器中間件)

下載中間件是位于Scrapy引擎和下載器之間的鉤子框架,主要是處理Scrapy引擎與下載器之間的請求及響應。它提供了一個自定義的代碼的方式來拓展Scrapy的功能。下載中間器是一個處理請求和響應的鉤子框架。他是輕量級的,對Scrapy盡享全局控制的底層的系統(tǒng)。

7、Spider middlewares(蜘蛛中間件)

蜘蛛中間件是介于Scrapy引擎和蜘蛛之間的鉤子框架,主要工作是處理蜘蛛的響應輸入和請求輸出。它提供一個自定義代碼的方式來拓展Scrapy的功能。蛛中間件是一個掛接到Scrapy的蜘蛛處理機制的框架,你可以插入自定義的代碼來處理發(fā)送給蜘蛛的請求和返回蜘蛛獲取的響應內容和項目。

8、Scheduler middlewares(調度中間件)

調度中間件是介于Scrapy引擎和調度之間的中間件,主要工作是處從Scrapy引擎發(fā)送到調度的請求和響應。他提供了一個自定義的代碼來拓展Scrapy的功能。

三、數(shù)據(jù)處理流程

Scrapy的整個數(shù)據(jù)處理流程有Scrapy引擎進行控制,其主要的運行方式為:

1.引擎打開一個域名,時蜘蛛處理這個域名,并讓蜘蛛獲取第一個爬取的URL。

2.引擎從蜘蛛那獲取第一個需要爬取的URL,然后作為請求在調度中進行調度。

3.引擎從調度那獲取接下來進行爬取的頁面。

4.調度將下一個爬取的URL返回給引擎,引擎將他們通過下載中間件發(fā)送到下載器。

5.當網(wǎng)頁被下載器下載完成以后,響應內容通過下載中間件被發(fā)送到引擎。

6.引擎收到下載器的響應并將它通過蜘蛛中間件發(fā)送到蜘蛛進行處理。

7.蜘蛛處理響應并返回爬取到的項目,然后給引擎發(fā)送新的請求。

8.引擎將抓取到的項目項目管道,并向調度發(fā)送請求。

9.系統(tǒng)重復第二部后面的操作,直到調度中沒有請求,然后斷開引擎與域之間的聯(lián)系。

四、驅動器

Scrapy是由Twisted寫的一個受歡迎的Python事件驅動網(wǎng)絡框架,它使用的是非堵塞的異步處理。

以上就是詳解Python的爬蟲框架 Scrapy的詳細內容,更多關于Python 爬蟲框架 Scrapy的資料請關注腳本之家其它相關文章!

相關文章

  • 基于python 開立方的注意事項說明

    基于python 開立方的注意事項說明

    這篇文章主要介紹了基于python 開立方的注意事項說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • python中文分詞庫jieba使用方法詳解

    python中文分詞庫jieba使用方法詳解

    這篇文章主要介紹了python中文分詞庫jieba使用方法詳解,需要的朋友可以參考下
    2020-02-02
  • python利用ffmpeg進行錄制屏幕的方法

    python利用ffmpeg進行錄制屏幕的方法

    今天小編就為大家分享一篇python利用ffmpeg進行錄制屏幕的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Python urllib.request對象案例解析

    Python urllib.request對象案例解析

    這篇文章主要介紹了Python urllib.request對象案例解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-05-05
  • Pycharm報錯Environment?location?directory?is?not?empty問題及解決

    Pycharm報錯Environment?location?directory?is?not?empty問題及

    這篇文章主要介紹了Pycharm報錯Environment?location?directory?is?not?empty問題及解決,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-09-09
  • Python PCA降維的兩種實現(xiàn)方法

    Python PCA降維的兩種實現(xiàn)方法

    大家好,本篇文章主要講的是Python PCA降維的兩種實現(xiàn)方法,感興趣的的同學趕快來看一看吧,對你有幫助的話記得收藏一下
    2022-01-01
  • python flask開發(fā)的簡單基金查詢工具

    python flask開發(fā)的簡單基金查詢工具

    基于python flask開發(fā)的簡單基金查詢工具,支持大盤指數(shù)實時情況查看,總持倉實際漲幅、預估漲幅等功能,感興趣的朋友可以下載該項目來查看使用
    2021-06-06
  • python中添加模塊導入路徑的方法

    python中添加模塊導入路徑的方法

    這篇文章主要介紹了python中添加模塊導入路徑的方法 ,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-02-02
  • Django Rest framework頻率原理與限制

    Django Rest framework頻率原理與限制

    這篇文章主要介紹了Django Rest framework頻率原理與限制,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-07-07
  • 一文詳述 Python 中的 property 語法

    一文詳述 Python 中的 property 語法

    這篇文章主要介紹了一文詳述 Python 中的 property 語法,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-09-09

最新評論