python3 scrapy框架的執(zhí)行流程
scrapy框架概述:Scrapy,Python開發(fā)的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。
創(chuàng)建項目
由于pycharm不能直接創(chuàng)建scrapy項目,必須通過命令行創(chuàng)建,所以相關(guān)操作在pycharm的終端進(jìn)行:
1、安裝scrapy模塊:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
2、創(chuàng)建一個scrapy項目:scrapy startproject test_scrapy
4、生成一個爬蟲:scrapy genspider itcast "itcast.cn”
5、提取數(shù)據(jù):完善spider,使用xpath等方法
6、保存數(shù)據(jù):pipeline中保存數(shù)據(jù)
常用的命令
創(chuàng)建項目:scrapy startproject xxx
進(jìn)入項目:cd xxx #進(jìn)入某個文件夾下
創(chuàng)建爬蟲:scrapy genspider xxx(爬蟲名) xxx.com (爬取域)
生成文件:scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運行爬蟲:scrapy crawl XXX
列出所有爬蟲:scrapy list
獲得配置信息:scrapy settings [options]
Scrapy項目下文件
scrapy.cfg: 項目的配置文件
test_scrapy/: 該項目的python模塊。在此放入代碼(核心)
test_scrapy/items.py: 項目中的item文件.(這是創(chuàng)建容器的地方,爬取的信息分別放到不同容器里)
test_scrapy/pipelines.py: 項目中的pipelines文件.
test_scrapy/settings.py: 項目的設(shè)置文件.(我用到的設(shè)置一下基礎(chǔ)參數(shù),比如加個文件頭,設(shè)置一個編碼)
test_scrapy/spiders/: 放置spider代碼的目錄. (放爬蟲的地方)
scrapy框架的整體執(zhí)行流程
1.spider的yeild將request發(fā)送給engine
2.engine對request不做任何處理發(fā)送給scheduler
3.scheduler,生成request交給engine
4.engine拿到request,通過middleware發(fā)送給downloader
5.downloader在\獲取到response之后,又經(jīng)過middleware發(fā)送給engine
6.engine獲取到response之后,返回給spider,spider的parse()方法對獲取到的response進(jìn)行處理,解析出items或者requests
7.將解析出來的items或者requests發(fā)送給engine
8.engine獲取到items或者requests,將items發(fā)送給ItemPipeline,將requests發(fā)送給scheduler(ps,只有調(diào)度器中不存在request時,程序才停止,及時請求失敗scrapy也會重新進(jìn)行請求)
關(guān)于yeild函數(shù)介紹
簡單地講,yield 的作用就是把一個函數(shù)變成一個 generator(生成器),帶有 yield 的函數(shù)不再是一個普通函數(shù),Python 解釋器會將其視為一個 generator,帶有yeild的函數(shù)遇到y(tǒng)eild的時候就返回一個迭代值,下次迭代時, 代碼從 yield 的下一條語句繼續(xù)執(zhí)行,而函數(shù)的本地變量看起來和上次中斷執(zhí)行前是完全一樣的,于是函數(shù)繼續(xù)執(zhí)行, 直到再次遇到 yield。
通俗的講就是:在一個函數(shù)中,程序執(zhí)行到y(tǒng)ield語句的時候,程序暫停,返回yield后面表達(dá)式的值,在下一次調(diào)用的時候,從yield語句暫停的地方繼續(xù)執(zhí)行,如此循環(huán),直到函數(shù)執(zhí)行完。
到此這篇關(guān)于python3 scrapy框架的執(zhí)行流程的文章就介紹到這了,更多相關(guān)python3 scrapy框架內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python 列表輸出重復(fù)值以及對應(yīng)的角標(biāo)方法
今天小編就為大家分享一篇python 列表輸出重復(fù)值以及對應(yīng)的角標(biāo)方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06python萬年歷實現(xiàn)代碼 含運行結(jié)果
這篇文章主要為大家詳細(xì)介紹了python萬年歷實現(xiàn)代碼,含運行結(jié)果,具有一定的參考價值,感興趣的小伙伴們可以參考一下2017-05-05Python網(wǎng)頁解析利器BeautifulSoup安裝使用介紹
這篇文章主要介紹了Python網(wǎng)頁解析利器BeautifulSoup安裝使用介紹,本文用一個完整示例一步一步安裝了BeautifulSoup的安裝和使用過程,需要的朋友可以參考下2015-03-03pytorch神經(jīng)網(wǎng)絡(luò)之卷積層與全連接層參數(shù)的設(shè)置方法
今天小編就為大家分享一篇pytorch神經(jīng)網(wǎng)絡(luò)之卷積層與全連接層參數(shù)的設(shè)置方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-08-08pyinstaller打包可執(zhí)行程序過程中的常見錯誤解決
這篇文章主要介紹了pyinstaller打包可執(zhí)行程序過程中的常見錯誤解決,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-11-11Python利用機(jī)器學(xué)習(xí)算法實現(xiàn)垃圾郵件的識別
今天教大家利用簡單的機(jī)器學(xué)習(xí)算法實現(xiàn)垃圾郵件識別,文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下2021-06-06