欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲框架Scrapy常用命令總結(jié)

 更新時(shí)間:2018年07月26日 12:04:46   作者:噴跑的豆子  
這篇文章主要介紹了Python爬蟲框架Scrapy常用命令,結(jié)合實(shí)例形式總結(jié)分析了Scrapy框架中常見的全局命令與項(xiàng)目命令功能、使用方法及操作注意事項(xiàng),需要的朋友可以參考下

本文實(shí)例講述了Python爬蟲框架Scrapy常用命令。分享給大家供大家參考,具體如下:

在Scrapy中,工具命令分為兩種,一種為全局命令,一種為項(xiàng)目命令。

全局命令不需要依靠Scrapy項(xiàng)目就可以在全局中直接運(yùn)行,而項(xiàng)目命令必須要在Scrapy項(xiàng)目中才可以運(yùn)行

全局命令

全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不進(jìn)入Scrapy項(xiàng)目所在目錄的情況下,運(yùn)行scrapy-h,如圖所示:

可以看到,此時(shí)在可用命令在終端下展示出了常見的全局命令,分別為fetchrunspider、settings、shell、startproject、versionview。

fetch命令

fetch命令主要用來顯示爬蟲爬取的過程.如下圖所示:

在使用fetch命令時(shí),同樣可以使用某些參數(shù)進(jìn)行相應(yīng)的控制。那么fetch有哪些相關(guān)參數(shù)可以使用呢?我們可以通過scrpy fetch -h列出所有可以使用的fetch相關(guān)參數(shù)。比如我們可以使用–headers顯示頭信息,也可以使用–nolog控制不顯示日志信息,還可以使用–spider=SPIDER參數(shù)來控制使用哪個(gè)爬蟲,通過–logfile=FILE指定存儲(chǔ)日志信息的文件,通過–loglevel=LEVEL控制日志等級(jí)。舉個(gè)栗子:

# 顯示頭信息,并且不顯示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com

sunspider命令

通過runspider命令可以不依托scrapy的爬蟲項(xiàng)目,直接運(yùn)行一個(gè)爬蟲文件

# first.py為自定義的一個(gè)爬蟲文件
scrapy runspider first.py

settings命令

在scrapy項(xiàng)目所在的目錄中使用settings命令查看的使用對(duì)應(yīng)的項(xiàng)目配置信息,如果在scrapy項(xiàng)目所在的目錄外使用settings命令查看的Scrapy默認(rèn)的配置信息

# 在項(xiàng)目中使用此命令打印的為BOT_NAME對(duì)應(yīng)的值,即scrapy項(xiàng)目名稱。
# 在項(xiàng)目外使用此命令打印的為scrapybot
scrapy settings --get BOT_NAME

shell命令

通過shell命令可以啟動(dòng)Scrapy的交互終端。

Scrapy的交互終端經(jīng)常在開發(fā)以及調(diào)試的時(shí)候用到,使用Scrapy的交互終端可以實(shí)現(xiàn)在不啟動(dòng)Scrapy爬蟲的情況下,對(duì)網(wǎng)站響應(yīng)進(jìn)行調(diào)試,同樣,在該交互終端下,我們也可以寫一些Python代碼進(jìn)行相應(yīng)測(cè)試。

>>>后面可以輸入交互命令以及相應(yīng)的代碼

startproject命令

用于創(chuàng)建scrapy項(xiàng)目

version命令

查看scrapy版本

view命令

用于下載某個(gè)網(wǎng)頁(yè),然后通過瀏覽器查看

項(xiàng)目命令

bench命令

測(cè)試本地硬件的性能

scrapy bench

genspider命令

用于創(chuàng)建爬蟲文件,這是一種快速創(chuàng)建爬蟲文件的方式。

# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com

此時(shí)在spider文件夾下會(huì)生成一個(gè)以xxx命名的py文件。可以使用scrapy genspider -l查看所有可用爬蟲模板。當(dāng)前可用的爬蟲模板有:basic、crawl、csvfeedxmlfeed

check命令

使用check命令可以實(shí)現(xiàn)對(duì)某個(gè)爬蟲文件進(jìn)行合同檢查,即測(cè)試.

# xxx為爬蟲名
scrapy check xxx

crawl命令

啟動(dòng)某個(gè)爬蟲

# xxx為爬蟲名
scrapy crawl xxx

list命令

列出當(dāng)前可使用的爬蟲文件

scrapy list

edit命令

編輯爬蟲文件

scrapy edit xxx

parse命令

通過parse命令,我們可以實(shí)現(xiàn)獲取指定的URL網(wǎng)址,并使用對(duì)應(yīng)的爬蟲文件進(jìn)行處理和分析

日志等級(jí)

等級(jí)名 含義
CRITICAL 發(fā)生了最嚴(yán)重的錯(cuò)誤
ERROR 發(fā)生了必須立即處理的錯(cuò)誤
WARNING 出現(xiàn)了一些警告信息,即存在潛在錯(cuò)誤
INFO 輸出一些提示顯示
DEBUG 輸出一些調(diào)試信息

更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總

希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。

相關(guān)文章

  • Django實(shí)戰(zhàn)之用戶認(rèn)證(初始配置)

    Django實(shí)戰(zhàn)之用戶認(rèn)證(初始配置)

    這篇文章主要介紹了Django實(shí)戰(zhàn)之用戶認(rèn)證(初始配置),小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2018-07-07
  • 使用Python簡(jiǎn)單的實(shí)現(xiàn)樹莓派的WEB控制

    使用Python簡(jiǎn)單的實(shí)現(xiàn)樹莓派的WEB控制

    這篇文章主要介紹了使用Python簡(jiǎn)單的實(shí)現(xiàn)樹莓派的WEB控制的相關(guān)資料,需要的朋友可以參考下
    2016-02-02
  • Python中subprocess模塊的用法詳解

    Python中subprocess模塊的用法詳解

    這篇文章主要介紹了Python中subprocess模塊的用法詳解,subprocess是Python 2.4中新增的一個(gè)模塊,它允許你生成新的進(jìn)程,連接到它們的 input/output/error 管道,并獲取它們的返回狀態(tài)碼,這個(gè)模塊的目的在于替換幾個(gè)舊的模塊和方法,需要的朋友可以參考下
    2023-08-08
  • python缺失值填充方法示例代碼

    python缺失值填充方法示例代碼

    常見的數(shù)據(jù)缺失填充方式分為很多種,比如刪除法、均值法、回歸法、KNN、MICE、EM等,下面這篇文章主要給大家介紹了關(guān)于python缺失值填充方法的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-12-12
  • 局域網(wǎng)內(nèi)python socket實(shí)現(xiàn)windows與linux間的消息傳送

    局域網(wǎng)內(nèi)python socket實(shí)現(xiàn)windows與linux間的消息傳送

    這篇文章主要介紹了局域網(wǎng)內(nèi)python socket實(shí)現(xiàn)windows與linux間的消息傳送的相關(guān)知識(shí),非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-04-04
  • TensorFlow學(xué)習(xí)之分布式的TensorFlow運(yùn)行環(huán)境

    TensorFlow學(xué)習(xí)之分布式的TensorFlow運(yùn)行環(huán)境

    這篇文章主要了TensorFlow學(xué)習(xí)之分布式的TensorFlow運(yùn)行環(huán)境的相關(guān)知識(shí),本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-02-02
  • Pyscript使用本地Pyodide配置步驟

    Pyscript使用本地Pyodide配置步驟

    PyScript是“一個(gè)用于在 HTML(如 PHP)中交錯(cuò) Python 的系統(tǒng),這篇文章主要介紹了Pyscript使用本地Pyodide配置方法,需要的朋友可以參考下
    2022-12-12
  • 3個(gè) Python 編程技巧

    3個(gè) Python 編程技巧

    這篇文章主要介紹 Python 編程技巧,我們知道,字典的本質(zhì)是哈希表,本身是無法排序的,但 Python 3.6 之后,字典是可以按照插入的順序進(jìn)行遍歷的,這就是有序字典,其中的原理,可以閱讀為什么 Python3.6 之后字典是有序的。本文也會(huì)介紹該內(nèi)容,需要的朋友可以參考一下
    2021-10-10
  • 一篇文章帶你了解python標(biāo)準(zhǔn)庫(kù)--datetime模塊

    一篇文章帶你了解python標(biāo)準(zhǔn)庫(kù)--datetime模塊

    這篇文章主要為大家介紹了python中的datetime模塊,datetime模塊的接口則更直觀、更容易調(diào)用,想要了解datetime模塊的朋友可以參考一下
    2021-08-08
  • Python素?cái)?shù)檢測(cè)實(shí)例分析

    Python素?cái)?shù)檢測(cè)實(shí)例分析

    這篇文章主要介紹了Python素?cái)?shù)檢測(cè)方法,實(shí)例分析了Python判定素?cái)?shù)的相關(guān)技巧,需要的朋友可以參考下
    2015-06-06

最新評(píng)論