欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)

 更新時(shí)間:2021年06月25日 15:14:58   作者:松鼠愛吃餅干  
今天給大家?guī)淼氖顷P(guān)于Python爬蟲的相關(guān)知識(shí),文章圍繞著scrapy的框架結(jié)構(gòu)展開,文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下

scrapy 框架結(jié)構(gòu)

思考

  • scrapy 為什么是框架而不是庫?
  • scrapy是如何工作的?

項(xiàng)目結(jié)構(gòu)

在開始爬取之前,必須創(chuàng)建一個(gè)新的Scrapy項(xiàng)目。進(jìn)入您打算存儲(chǔ)代碼的目錄中,運(yùn)行下列命令:

注意:創(chuàng)建項(xiàng)目時(shí),會(huì)在當(dāng)前目錄下新建爬蟲項(xiàng)目的目錄。

這些文件分別是:

  • scrapy.cfg:項(xiàng)目的配置文件
  • quotes/:該項(xiàng)目的python模塊。之后您將在此加入代碼
  • quotes/items.py:項(xiàng)目中的item文件
  • quotes/middlewares.py:爬蟲中間件、下載中間件(處理請(qǐng)求體與響應(yīng)體)
  • quotes/pipelines.py:項(xiàng)目中的pipelines文件
  • quotes/settings.py:項(xiàng)目的設(shè)置文件
  • quotes/spiders/:放置spider代碼的目錄

Scrapy原理圖

各個(gè)組件的介紹

1.Engine。引擎,處理整個(gè)系統(tǒng)的數(shù)據(jù)流處理、觸發(fā)事務(wù),是整個(gè)框架的核心。

2.ltem。項(xiàng)目,它定義了爬取結(jié)果的數(shù)據(jù)結(jié)構(gòu),爬取的數(shù)據(jù)會(huì)被賦值成該ltem對(duì)象。

3.Scheduler。調(diào)度器,接受引擎發(fā)過來的請(qǐng)求并將其加入隊(duì)列中,在引擎再次請(qǐng)求的時(shí)候?qū)⒄?qǐng)求提供給引擎。

4.Downloader。下載器,下載網(wǎng)頁內(nèi)容,并將網(wǎng)頁內(nèi)容返回給蜘蛛。

5.Spiders。蜘蛛,其內(nèi)定義了爬取的邏輯和網(wǎng)頁的解析規(guī)則,它主要負(fù)責(zé)解析響應(yīng)并生成提結(jié)果和新的請(qǐng)求。

6.Item Pipeline。項(xiàng)目管道,負(fù)責(zé)處理由蜘蛛從網(wǎng)頁中抽取的項(xiàng)目,它的主要任務(wù)是清洗、驗(yàn)證和存儲(chǔ)數(shù)據(jù)。

7.Downloader Middlewares。下載器中間件,位于引擎和下載器之間的鉤子框架,主要處理引擎與下載器之間的請(qǐng)求及響應(yīng)。

8.Spider Middlewares。蜘蛛中間件,位于引擎和蜘蛛之間的鉤子框架,主要處理蜘蛛輸入的響應(yīng)和輸出的結(jié)果及新的請(qǐng)求。

數(shù)據(jù)的流動(dòng)

  • Scrapy Engine(引擎):負(fù)責(zé)Spider、ltemPipeline、Downloader、Scheduler中間的通訊,信號(hào)、數(shù)據(jù)傳遞等。
  • Scheduler(調(diào)度器):負(fù)責(zé)接受引擎發(fā)送過來的Request請(qǐng)求,并按照一定的方式進(jìn)行整理排列,入隊(duì),當(dāng)引擎需要時(shí),交還給引擎。
  • Downloader(下載器):負(fù)責(zé)下載Scrapy Engine(引擎)發(fā)送的所有Requests請(qǐng)求,并將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理,
  • Spider(爬蟲)︰負(fù)責(zé)處理所有Responses,從中分析提取數(shù)據(jù),獲取ltem字段需要的數(shù)據(jù),并將需要跟進(jìn)的URL提交給引擎,再次進(jìn)入Scheduler(調(diào)度器),
  • ltem Pipeline(管道):負(fù)責(zé)處理Spider中獲取到的ltem,并進(jìn)行進(jìn)行后期處理(詳細(xì)分析、過濾、存儲(chǔ)等)的地方.
  • Downloader Middlewares(下載中間件):你可以當(dāng)作是一個(gè)可以自定義擴(kuò)展下載功能的組件。
  • Spider Middlewares(Spider中間件):你可以理解為是一個(gè)可以自定擴(kuò)展和操作引擎和Spider中間通信的功能組件(比如進(jìn)入Spider的Responses;和從Spider出去的Requests)

到此這篇關(guān)于Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)的文章就介紹到這了,更多相關(guān)scrapy的框架結(jié)構(gòu)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Django 重寫用戶模型的實(shí)現(xiàn)

    Django 重寫用戶模型的實(shí)現(xiàn)

    這篇文章主要介紹了Django 重寫用戶模型的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • Python中類變量和實(shí)例變量的區(qū)別

    Python中類變量和實(shí)例變量的區(qū)別

    這篇文章主要介紹了Python中類變量和實(shí)例變量的區(qū)別,文章針對(duì)Python類變量和實(shí)例變量的問題,給出了具體說明和演示,需要的小伙伴可以參考一下
    2022-02-02
  • python使用Plotly繪圖工具繪制水平條形圖

    python使用Plotly繪圖工具繪制水平條形圖

    這篇文章主要為大家詳細(xì)介紹了python使用Plotly繪圖工具繪制水平條形圖,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2019-04-04
  • 對(duì)pandas里的loc并列條件索引的實(shí)例講解

    對(duì)pandas里的loc并列條件索引的實(shí)例講解

    今天小編就為大家分享一篇對(duì)pandas里的loc并列條件索引的實(shí)例講解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-11-11
  • Pyhton模塊和包相關(guān)知識(shí)總結(jié)

    Pyhton模塊和包相關(guān)知識(shí)總結(jié)

    文中詳細(xì)整理了關(guān)于Python模塊和包的相關(guān)知識(shí)點(diǎn),剛?cè)腴TPython的小伙伴們可以學(xué)習(xí)一下,有助于加深Python基礎(chǔ)的理解.而且有詳細(xì)說明及代碼示例,需要的朋友可以參考下
    2021-05-05
  • Python灰度變換中的對(duì)數(shù)變換專項(xiàng)分析實(shí)現(xiàn)

    Python灰度變換中的對(duì)數(shù)變換專項(xiàng)分析實(shí)現(xiàn)

    灰度變換是指根據(jù)某種目標(biāo)條件按一定變換關(guān)系逐點(diǎn)改變源圖像中每個(gè)像素灰度值的方法。目的是改善畫質(zhì),使圖像顯示效果更加清晰。圖像的灰度變換處理是圖像增強(qiáng)處理技術(shù)中的一種非?;A(chǔ)、直接的空間域圖像處理方法,也是圖像數(shù)字化軟件和圖像顯示軟件的一個(gè)重要組成部分
    2022-10-10
  • 國產(chǎn)麒麟系統(tǒng)kylin部署python項(xiàng)目詳細(xì)步驟

    國產(chǎn)麒麟系統(tǒng)kylin部署python項(xiàng)目詳細(xì)步驟

    這篇文章主要給大家介紹了關(guān)于國產(chǎn)麒麟系統(tǒng)kylin部署python項(xiàng)目的相關(guān)資料,文中通過代碼示例介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2023-09-09
  • python kmeans聚類簡單介紹和實(shí)現(xiàn)代碼

    python kmeans聚類簡單介紹和實(shí)現(xiàn)代碼

    這篇文章主要為大家詳細(xì)介紹了python kmeans聚類簡單介紹和實(shí)現(xiàn)代碼,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-02-02
  • python Selenium 庫的使用技巧

    python Selenium 庫的使用技巧

    這篇文章主要介紹了python Selenium 庫的使用技巧,幫助大家更好的理解和學(xué)習(xí)python Selenium 庫,感興趣的朋友可以了解下
    2020-10-10
  • python使用 zip 同時(shí)迭代多個(gè)序列示例

    python使用 zip 同時(shí)迭代多個(gè)序列示例

    這篇文章主要介紹了python使用 zip 同時(shí)迭代多個(gè)序列,結(jié)合實(shí)例形式分析了Python使用zip遍歷迭代長度相等與不等的序列相關(guān)操作技巧,需要的朋友可以參考下
    2019-07-07

最新評(píng)論