欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲之scrapy框架詳解

 更新時(shí)間:2021年11月24日 08:39:47   作者:可小v.  
這篇文章主要為大家介紹了python爬蟲之scrapy框架,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助
1.在pycharm下安裝scrapy函數(shù)庫(kù)
2.將安裝好scrapy函數(shù)庫(kù)下的路徑配置到系統(tǒng)path的環(huán)境變量中
3.打開cmd終端輸入:scrapy.exe檢查是否安裝成功
4.創(chuàng)建一個(gè)項(xiàng)目:scrapy startproject 項(xiàng)目名字
5.cd進(jìn)入該目錄下,創(chuàng)建一個(gè)spider:scrapy genspider 項(xiàng)目名字 網(wǎng)址
6.編輯settings.py文件中的USER_AGENT選項(xiàng)為正常的瀏覽器頭部
7.執(zhí)行這個(gè)spider:scrapy crawl 項(xiàng)目名字
8.如果遇到因pip版本太低導(dǎo)致安裝不了scarpy函數(shù)庫(kù),可以先在cmd窗口輸入py -m pip install --upgrade pip升級(jí)命令(前提是你的python環(huán)境下得有pip,可通過(guò)輸入pip命令查看是否已安裝,如未安裝得去官網(wǎng)下載并解壓至相應(yīng)路徑)

代碼示例命令截圖:

在這里插入圖片描述

項(xiàng)目文件截圖:

在這里插入圖片描述

settings.py文件截圖:(需要修改爬取網(wǎng)站的USER_AGENT)

在這里插入圖片描述

scrapy運(yùn)行工作流程圖:

Spiders(爬蟲):它負(fù)責(zé)處理所有Responses,從中分析提取數(shù)據(jù),獲取Item字段需要的數(shù)據(jù),并將需要跟進(jìn)的URL提交給引擎,再次進(jìn)入Scheduler(調(diào)度器)

Engine(引擎):負(fù)責(zé)Spider、ItemPipelineDownloader、Scheduler中間的通訊,信號(hào)、數(shù)據(jù)傳遞等。

Scheduler(調(diào)度器):它負(fù)責(zé)接受引擎發(fā)送過(guò)來(lái)的Request請(qǐng)求,并按照一定的方式進(jìn)行整理排列,入隊(duì),當(dāng)引擎需要時(shí),交還給引擎。

Downloader(下載器):負(fù)責(zé)下載Scrapy Engine(引擎)發(fā)送的所有Requests請(qǐng)求,并將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來(lái)處理

ItemPipeline(管道):它負(fù)責(zé)處理Spider中獲取到的Item,并進(jìn)行進(jìn)行后期處理(詳細(xì)分析、過(guò)濾、存儲(chǔ)等)的地方.

Downloader Middlewares(下載中間件):你可以當(dāng)作是一個(gè)可以自定義擴(kuò)展下載功能的組件。

Spider MiddlewaresSpider中間件):你可以理解為是一個(gè)可以自定擴(kuò)展和操作引擎和Spider中間

通信的功能組件(比如進(jìn)入Spider的Responses;和從Spider出去的Requests)
在這里插入圖片描述

總結(jié)

本篇文章就到這里了,希望能夠給你帶來(lái)幫助,也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!

相關(guān)文章

  • Python 3.10 的首個(gè) PEP 誕生,內(nèi)置類型 zip() 迎來(lái)新特性(推薦)

    Python 3.10 的首個(gè) PEP 誕生,內(nèi)置類型 zip() 迎來(lái)新特性(推薦)

    這篇文章主要介紹了Python 3.10 的首個(gè) PEP 誕生,內(nèi)置類型 zip() 迎來(lái)新特性,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-07-07
  • 關(guān)于nn.BatchNorm1d()用法及說(shuō)明

    關(guān)于nn.BatchNorm1d()用法及說(shuō)明

    這篇文章主要介紹了關(guān)于nn.BatchNorm1d()用法及說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • Python實(shí)現(xiàn)圖書管理系統(tǒng)設(shè)計(jì)

    Python實(shí)現(xiàn)圖書管理系統(tǒng)設(shè)計(jì)

    這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)圖書管理系統(tǒng)設(shè)計(jì),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-03-03
  • Python3.7 版本 lxml 模塊無(wú)法導(dǎo)入etree 問(wèn)題及解決方法

    Python3.7 版本 lxml 模塊無(wú)法導(dǎo)入etree 問(wèn)題及解決方法

    這篇文章主要介紹了Python3.7 版本 lxml 模塊無(wú)法導(dǎo)入etree 問(wèn)題及解決方法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧
    2024-01-01
  • Python NumPy創(chuàng)建數(shù)組方法

    Python NumPy創(chuàng)建數(shù)組方法

    這篇文章主要介紹了Python NumPy創(chuàng)建數(shù)組方法,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的朋友可以參考一下
    2022-09-09
  • python 6行代碼制作月歷生成器

    python 6行代碼制作月歷生成器

    這篇文章主要介紹了python如何用6行代碼制作月歷生成器,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2020-09-09
  • python系列 文件操作的代碼

    python系列 文件操作的代碼

    這篇文章主要介紹了python系列 文件操作的代碼,主要是使用了python的open、read、write是些打開、讀取、寫入,導(dǎo)入numpy主要是用到數(shù)組操作,需要的朋友可以參考下
    2019-10-10
  • Python爬蟲之Selenium中frame/iframe表單嵌套頁(yè)面

    Python爬蟲之Selenium中frame/iframe表單嵌套頁(yè)面

    這篇文章主要介紹了Python爬蟲之Selenium中frame/iframe表單嵌套頁(yè)面,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-12-12
  • Python實(shí)現(xiàn)簡(jiǎn)單的多任務(wù)mysql轉(zhuǎn)xml的方法

    Python實(shí)現(xiàn)簡(jiǎn)單的多任務(wù)mysql轉(zhuǎn)xml的方法

    這篇文章主要介紹了Python實(shí)現(xiàn)簡(jiǎn)單的多任務(wù)mysql轉(zhuǎn)xml的方法,結(jié)合實(shí)例形式分析了Python查詢mysql結(jié)果集轉(zhuǎn)xml格式數(shù)據(jù)輸出的相關(guān)操作技巧,需要的朋友可以參考下
    2017-02-02
  • django開發(fā)之settings.py中變量的全局引用詳解

    django開發(fā)之settings.py中變量的全局引用詳解

    當(dāng)網(wǎng)站里面的一些內(nèi)容,如郵箱,網(wǎng)站標(biāo)題,網(wǎng)站的描述,這些東西我們可以存在數(shù)據(jù)庫(kù)中也可以存放在我們的setting 文件中,這篇文章主要給大家介紹了django中settings.py變量的全局引用的相關(guān)資料,文中介紹的非常詳細(xì),需要的朋友可以參考下。
    2017-03-03

最新評(píng)論