欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲框架之Scrapy中Spider的用法

 更新時間:2021年06月28日 15:29:43   作者:松鼠愛吃餅干  
今天給大家?guī)淼氖顷P于Python爬蟲的相關知識,文章圍繞著Scrapy中Spider的用法展開,文中有非常詳細的介紹及代碼示例,需要的朋友可以參考下

Scrapy中Spider的用法

Spider類定義了如何爬取某個(或某些)網(wǎng)站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網(wǎng)頁的內容中提取結構化數(shù)據(jù)(爬取item)。換句話說,Spider就是您定義爬取的動作及分析某個網(wǎng)頁(或者是有些網(wǎng)頁)的地方。

對spider來說,爬取的循環(huán)類似下文:

1.以初始的URL初始化Request,并設置回調函數(shù)。當該request下載完畢并返回時,將生成response,并作為參數(shù)傳給該回調函數(shù)。spider中初始的request是通過調用start_requests()來獲取的。start_requests()讀取start_urls中的URL,并以parse為回調函數(shù)生成Request。

2.在回調函數(shù)內分析返回的(網(wǎng)頁)內容,返回ltem對象或者Request或者一個包括二者的可迭代容器。返回的Request對象之后會經(jīng)過Scrapy處理,下載相應的內容,并調用設置的callback函數(shù)(函數(shù)可相同)。

3.在回調函數(shù)內,您可以使用選擇器(Selectors)(您也可以使用BeautifulSoup, Ixml或者您想用的任何解析器)來分析網(wǎng)頁內容,并根據(jù)分析的數(shù)據(jù)生成item。

4.最后,由spider返回的item將被存到數(shù)據(jù)庫(由某些ltem Pipeline處理)或使用Feed exports存入到文件中。

雖然該循環(huán)對任何類型的spider都(多少)適用,但Scrapy仍然為了不同的需求提供了多種默認spider。之后將討論這些spider。

Spider

scrapy.spider.Spider是最簡單的spider。每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。其僅僅請求給定的start_urls / start_requests,并根據(jù)返回的結果(resulting responses)調用spider的 parse方法。

name

定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化) spider,所以其必須是唯一的。不過您可以生成多個相同的spider實例(instance),這沒有任何限制。name是spider最重要的屬性,而且是必須的。

如果該spider爬取單個網(wǎng)站(single domain),一個常見的做法是以該網(wǎng)站(domain)(加或不加后綴)來命名spider。例如,如果spider爬取 mywebsite.com,該spider通常會被命名為mywebsite。

allowed_domains

可選。包含了spider允許爬取的域名(domain)列表(list)。當OffsiteMiddleware啟用時,域名不在列表中的URL不會被跟進。

start_urls

URL列表。當沒有制定特定的URL時,spider將從該列表中開始進行爬取。因此,第一個被獲取到的頁面的URL將是該列表之一。后續(xù)的URL將會從獲取到的數(shù)據(jù)中提取。

start_requests()

該方法必須返回一個可迭代對象(iterable)。該對象包含了spider用于爬取的第一個Request。

當spider啟動爬取并且未制定URL時,該方法被調用。當指定了URL時,make_requests_from_url()將被調用來創(chuàng)建Request對象。該方法僅僅會被Scrapy調用一次,因此您可以將其實現(xiàn)為生成器。

該方法的默認實現(xiàn)是使用start_urls的url生成Request。

如果您想要修改最初爬取某個網(wǎng)站的Request對象,您可以重寫(override)該方法。例如,如果您需要在啟動時以POST登錄某個網(wǎng)站,你可以這么寫:

def start_requests(self) :
    return [scrapy.FormRequest("http : / /ww. example.com/login",
        formdata={ 'user' : 'john', ' pass ' : 'secret'},
        ca77back=se1f.1ogged_in)]
 
def logged_in(self,response) :
## here you would extract links to follow and return Requests for
## each of them,with another ca77back
pass

parse

當response沒有指定回調函數(shù)時,該方法是Scrapy處理下載的response的默認方法。

parse負責處理response并返回處理的數(shù)據(jù)以及(/或)跟進的URL。Spider對其他的Request的回調函數(shù)也有相同的要求。

該方法及其他的Request回調函數(shù)必須返回一個包含Request 及(或) ltem的可迭代的對象。

參數(shù): response-用于分析的response

啟動方式

start_urls

start_urls是一個列表

start_requests

使用start_requests()重寫start_ur1s,要使用Request()方法自己發(fā)送請求:

def start_requests(se7f):
    """重寫start_urls 規(guī)則"""
    yield scrapy.Request(ur1='http://quotes.toscrape.com/page/1/'cal1back=self.parse)

scrapy.Request

scrapy.Request是一個請求對象,創(chuàng)建時必須制定回調函數(shù)。

數(shù)據(jù)保存

可以使用-o將數(shù)據(jù)保存為常見的格式(根據(jù)后綴名保存)
支持的格式有下面幾種:

  • json
  • jsonlines
  • jl
  • csv
  • xml
  • marshal
  • pickle

使用方式:

scrapy crawl quotes2 -o a.json

案例: Spider樣例

##一*- coding: utf-8 -*-
 
import scrapy
 
clTass Quotes2spider(scrapy.spider):
    name = 'quotes2'
    a7lowed_domains = [ 'toscrape.com ' ]
    start_urls = [ ' http: //quotes.toscrape.com/ page/2/ ']
 
    def parse(self,response):
        quotes = response.css('.quote ' )
        for quote in quotes:
            text = quote.css( '.text: : text ' ).extract_first()
            auth = quote.css( '.author : :text ').extract_first()
            tages = quote.css('.tags a: :text' ).extract()
            yield dict(text=text , auth=auth, tages=tages)

到此這篇關于Python爬蟲框架之Scrapy中Spider的用法的文章就介紹到這了,更多相關Spider的用法內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • Python基于pandas爬取網(wǎng)頁表格數(shù)據(jù)

    Python基于pandas爬取網(wǎng)頁表格數(shù)據(jù)

    這篇文章主要介紹了Python基于pandas獲取網(wǎng)頁表格數(shù)據(jù),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-05-05
  • 如何利用python批量提取txt文本中所需文本并寫入excel

    如何利用python批量提取txt文本中所需文本并寫入excel

    最近幫人寫了幾個小程序,所以記錄下,下面這篇文章主要給大家介紹了關于如何利用python批量提取txt文本中所需文本并寫入excel的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2022-07-07
  • wxPython學習之主框架實例

    wxPython學習之主框架實例

    這篇文章主要介紹了wxPython學習之主框架應用實例,以一個基礎的彈出窗體實例講述了wxPython主框架應用程序的實現(xiàn)方法,需要的朋友可以參考下
    2014-09-09
  • Python 檢查數(shù)組元素是否存在類似PHP isset()方法

    Python 檢查數(shù)組元素是否存在類似PHP isset()方法

    isset方法來檢查數(shù)組元素是否存在,在Python中無對應函數(shù),在Python中一般可以通過異常來處理數(shù)組元素不存在的情況,而無須事先檢查
    2014-10-10
  • pycharm運行scrapy過程圖解

    pycharm運行scrapy過程圖解

    這篇文章主要介紹了pycharm運行scrapy過程圖解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-11-11
  • Python實現(xiàn)簡單的猜單詞小游戲

    Python實現(xiàn)簡單的猜單詞小游戲

    這篇文章主要為大家詳細介紹了Python實現(xiàn)簡單的猜單詞小游戲,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2020-10-10
  • Appium Python自動化測試之環(huán)境搭建的步驟

    Appium Python自動化測試之環(huán)境搭建的步驟

    這篇文章主要介紹了Appium Python自動化測試之環(huán)境搭建的步驟,以32位的Windows 7操作系統(tǒng)為例介紹Appium+Python的環(huán)境搭建步驟,感興趣的小伙伴們可以參考一下
    2019-01-01
  • python中pycurl庫的用法實例

    python中pycurl庫的用法實例

    這篇文章主要介紹了python中pycurl庫的用法實例,可實現(xiàn)從指定網(wǎng)址讀取網(wǎng)頁的功能,需要的朋友可以參考下
    2014-09-09
  • 機器學習Erdos?Renyi隨機圖生成方法及特性

    機器學習Erdos?Renyi隨機圖生成方法及特性

    這篇文章主要為大家介紹了機器學習Erdos?Renyi隨機圖生成方法及特性詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-05-05
  • 用Python的Django框架完成視頻處理任務的教程

    用Python的Django框架完成視頻處理任務的教程

    這篇文章主要介紹了用Python的Django框架完成視頻處理任務的教程,包括用戶的視頻上傳和播放以及下載功能的實現(xiàn),需要的朋友可以參考下
    2015-04-04

最新評論