快捷導(dǎo)航

Python中Pyspider爬蟲框架的基本使用詳解

更新時間：2021年01月27日 15:35:59 作者：mankvis

這篇文章主要介紹了Python中Pyspider爬蟲框架的基本使用詳解，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

1.pyspider介紹

一個國人編寫的強大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強大的WebUI。采用Python語言編寫，分布式架構(gòu)，支持多種數(shù)據(jù)庫后端，強大的WebUI支持腳本編輯器，任務(wù)監(jiān)視器，項目管理器以及結(jié)果查看器。

用Python編寫腳本
功能強大的WebUI，包含腳本編輯器，任務(wù)監(jiān)視器，項目管理器和結(jié)果查看器
MySQL，MongoDB，Redis，SQLite，Elasticsearch ; PostgreSQL與SQLAlchemy作為數(shù)據(jù)庫后端
RabbitMQ，Beanstalk，Redis和Kombu作為消息隊列
任務(wù)優(yōu)先級，重試，定期，按年齡重新抓取等...
分布式架構(gòu)，抓取JavaScript頁面，Python 2和3等...

2.pyspider文檔

1>中文文檔:http://www.pyspider.cn/

2>英文文檔:http://docs.pyspider.org/

3.pyspider安裝

打開cmd命令行工具,執(zhí)行命令

pip install pyspider

出現(xiàn)下圖則安裝成功

4.pyspider啟動服務(wù),進(jìn)入WebUI界面

安裝pyspider后,打開cmd命令工具,執(zhí)行命令來啟動服務(wù)器

pyspider

出現(xiàn)下圖則啟動服務(wù)成功,默認(rèn)地址端口為127.0.0.1:5000

輸入地址127.0.0.1:5000,打開WebUI界面

隊列統(tǒng)計是為了方便查看爬蟲狀態(tài)，優(yōu)化爬蟲爬取速度新增的狀態(tài)統(tǒng)計．每個組件之間的數(shù)字就是對應(yīng)不同隊列的排隊數(shù)量．通常來是０或是個位數(shù)．如果達(dá)到了幾十甚至一百說明下游組件出現(xiàn)了瓶頸或錯誤，需要分析處理．

新建項目：pyspider與scrapy最大的區(qū)別就在這，pyspider新建項目調(diào)試項目完全在web下進(jìn)行，而scrapy是在命令行下開發(fā)并運行測試．

組名：項目新建后一般來說是不能修改項目名的，如果需要特殊標(biāo)記可修改組名．直接在組名上點鼠標(biāo)左鍵進(jìn)行修改．注意：組名改為delete后如果狀態(tài)為stop狀態(tài)，24小時后項目會被系統(tǒng)刪除．

運行狀態(tài)：這一欄顯示的是當(dāng)前項目的運行狀態(tài)．每個項目的運行狀態(tài)都是單獨設(shè)置的．直接在每個項目的運行狀態(tài)上點鼠標(biāo)左鍵進(jìn)行修改．運行分為五個狀態(tài)：TODO，STOP，CHECKING，DEBUG，RUNNING．各狀態(tài)說明：TODO是新建項目后的默認(rèn)狀態(tài)，不會運行項目．STOP狀態(tài)是停止?fàn)顟B(tài)，也不會運行．CHECHING是修改項目代碼后自動變的狀態(tài)．DEBUG是調(diào)試模式，遇到錯誤信息會停止繼續(xù)運行，RUNNING是運行狀態(tài)，遇到錯誤會自動嘗試，如果還是錯誤會跳過錯誤的任務(wù)繼續(xù)運行．

速度控制：很多朋友安裝好用說爬的慢，多數(shù)情況是速度被限制了．這個功能就是速度設(shè)置項．rate是每秒爬取頁面數(shù)，burst是并發(fā)數(shù)．如1/3是三個并發(fā)，每秒爬取一個頁面．

簡單統(tǒng)計：這個功能只是簡單的做的運行狀態(tài)統(tǒng)計，5m是五分鐘內(nèi)任務(wù)執(zhí)行情況，1h是一小時內(nèi)運行任務(wù)統(tǒng)計，1d是一天內(nèi)運行統(tǒng)計，all是所有的任務(wù)統(tǒng)計．

運行：run按鈕是項目初次運行需要點的按鈕，這個功能會運行項目的on_start方法來生成入口任務(wù)．

任務(wù)列表：顯示最新任務(wù)列表，方便查看狀態(tài)，查看錯誤等

結(jié)果查看：查看項目爬取的結(jié)果．