欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

 更新時間:2021年06月25日 14:49:07   作者:松鼠愛吃餅干  
今天給大家?guī)淼氖顷P(guān)于Python爬蟲的相關(guān)知識,文章圍繞著Python scrapy展開,文中有非常詳細的介紹及代碼示例,需要的朋友可以參考下

項目需求

在專門供爬蟲初學者訓練爬蟲技術(shù)的網(wǎng)站(http://quotes.toscrape.com)上爬取名言警句。

創(chuàng)建項目

在開始爬取之前,必須創(chuàng)建一個新的Scrapy項目。進入您打算存儲代碼的目錄中,運行下列命令:

(base) λ scrapy startproject quotes
New scrapy project 'quotes ', using template directory 'd: \anaconda3\lib\site-packages\scrapy\temp1ates\project ', created in:
    D:\XXX
You can start your first spider with :
    cd quotes
    scrapy genspider example example. com

首先切換到新建的爬蟲項目目錄下,也就是/quotes目錄下。然后執(zhí)行創(chuàng)建爬蟲文件的命令:

D:\XXX(master)
(base) λ cd quotes\
  
D:\XXX\quotes (master)
(base) λ scrapy genspider quotes quotes.com
cannot create a spider with the same name as your project
 
D :\XXX\quotes (master)
(base) λ scrapy genspider quote quotes.com
created spider 'quote' using template 'basic' in module:quotes.spiders.quote

該命令將會創(chuàng)建包含下列內(nèi)容的quotes目錄:

robots.txt

robots協(xié)議也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)蜘蛛,此網(wǎng)站中的哪些內(nèi)容是不應被搜索引擎的爬蟲獲取的,哪些是可以被爬蟲獲取的。

robots協(xié)議并不是一個規(guī)范,而只是約定俗成的。

#filename : settings.py
#obey robots.txt rules
ROBOTSTXT__OBEY = False

分析頁面

編寫爬蟲程序之前,首先需要對待爬取的頁面進行分析,主流的瀏覽器中都帶有分析頁面的工具或插件,這里我們選用Chrome瀏覽器的開發(fā)者工具(Tools→Developer tools)分析頁面。

數(shù)據(jù)信息

在Chrome瀏覽器中打開頁面

可以看到每一個標簽都包裹在

編寫spider

分析完頁面后,接下來編寫爬蟲。在Scrapy中編寫一個爬蟲, 在scrapy.Spider中編寫代碼Spider是用戶編寫用于從單個網(wǎng)站(或者-些網(wǎng)站)爬取數(shù)據(jù)的類。

其包含了-個用于下載的初始URL,如何跟進網(wǎng)頁中的鏈接以及如何分析頁面中的內(nèi)容,提取生成item的方法。

為了創(chuàng)建一個Spider, 您必須繼承scrapy.Spider類,且定義以下三個屬性:

  • name:用于區(qū)別Spider。該名字必須是唯一-的, 您不可以為不同的Spider設(shè)定相同的名字。
  • start _urls:包含了Spider在啟動時進行爬取的ur列表。因此, 第一個被獲取到的頁面將是其中之一。后續(xù)的URL則從初始的URL獲取到的數(shù)據(jù)中提取。
  • parse():是spider的一一個方法。被調(diào)用時,每個初始URL完成下載后生成的Response對象將會作為唯一的參數(shù)傳遞給該函數(shù)。該方法負責解析返回的數(shù)據(jù)(response data),提取數(shù)據(jù)(生成item)以及生成需要進一步處理的URL 的Request對象。
import scrapy
 
class QuoteSpi der(scrapy . Spider):
    name ='quote'
    allowed_ domains = [' quotes. com ']
    start_ urls = ['http://quotes . toscrape . com/']
    
    def parse(self, response) :
        pass

下面對quote的實現(xiàn)做簡單說明。

  • scrapy.spider :爬蟲基類,每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。
  • name是爬蟲的名字,是在genspider的時候指定的。
  • allowed_domains是爬蟲能抓取的域名,爬蟲只能在這個域名下抓取網(wǎng)頁,可以不寫。
  • start_ur1s是Scrapy抓取的網(wǎng)站,是可迭代類型,當然如果有多個網(wǎng)頁,列表中寫入多個網(wǎng)址即可,常用列表推導式的形式。
  • parse稱為回調(diào)函數(shù),該方法中的response就是start_urls 網(wǎng)址發(fā)出請求后得到的響應。當然也可以指定其他函數(shù)來接收響應。一個頁面解析函數(shù)通常需要完成以下兩個任務:

1.提取頁面中的數(shù)據(jù)(re、XPath、CSS選擇器)
2.提取頁面中的鏈接,并產(chǎn)生對鏈接頁面的下載請求。
頁面解析函數(shù)通常被實現(xiàn)成一個生成器函數(shù),每一項從頁面中提取的數(shù)據(jù)以及每一個對鏈接頁面的下載請求都由yield語句提交給Scrapy引擎。

解析數(shù)據(jù)

import scrapy
 
def parse(se1f,response) :
    quotes = response.css('.quote ')
    for quote in quotes:
        text = quote.css( '.text: :text ' ).extract_first()
        auth = quote.css( '.author : :text ' ).extract_first()
        tages = quote.css('.tags a: :text' ).extract()
        yield dict(text=text,auth=auth,tages=tages)

重點:

  • response.css(直接使用css語法即可提取響應中的數(shù)據(jù)。
  • start_ur1s 中可以寫多個網(wǎng)址,以列表格式分割開即可。
  • extract()是提取css對象中的數(shù)據(jù),提取出來以后是列表,否則是個對象。并且對于
  • extract_first()是提取第一個

運行爬蟲

在/quotes目錄下運行scrapycrawlquotes即可運行爬蟲項目。
運行爬蟲之后發(fā)生了什么?

Scrapy為Spider的start_urls屬性中的每個URL創(chuàng)建了scrapy.Request對象,并將parse方法作為回調(diào)函數(shù)(callback)賦值給了Request。

Request對象經(jīng)過調(diào)度,執(zhí)行生成scrapy.http.Response對象并送回給spider parse()方法進行處理。

完成代碼后,運行爬蟲爬取數(shù)據(jù),在shell中執(zhí)行scrapy crawl <SPIDER_NAME>命令運行爬蟲'quote',并將爬取的數(shù)據(jù)存儲到csv文件中:

(base) λ scrapy craw1 quote -o quotes.csv
2021-06-19 20:48:44 [scrapy.utils.log] INF0: Scrapy 1.8.0 started (bot: quotes)

等待爬蟲運行結(jié)束后,就會在當前目錄下生成一個quotes.csv的文件,里面的數(shù)據(jù)已csv格式存放。

-o支持保存為多種格式。保存方式也非常簡單,只要給上文件的后綴名就可以了。(csv、json、pickle等)

到此這篇關(guān)于Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例的文章就介紹到這了,更多相關(guān)Python scrapy框架內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 詳解python中的異常和文件讀寫

    詳解python中的異常和文件讀寫

    這篇文章主要介紹了python中的異常和文件讀寫的的相關(guān)資料,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2021-01-01
  • python深入講解魔術(shù)方法

    python深入講解魔術(shù)方法

    所謂魔法函數(shù)(Magic Methods),是Python的?種?級語法,允許你在類中?定義函數(shù)(函數(shù)名格式?般為__xx__),并綁定到類的特殊?法中。?如在類A中?定義__str__()函數(shù),則在調(diào)?str(A())時,會?動調(diào)?__str__()函數(shù),并返回相應的結(jié)果
    2022-06-06
  • Python面向?qū)ο笾^承代碼詳解

    Python面向?qū)ο笾^承代碼詳解

    這篇文章主要介紹了Python面向?qū)ο笾^承代碼詳解,分享了相關(guān)代碼示例,小編覺得還是挺不錯的,具有一定借鑒價值,需要的朋友可以參考下
    2018-01-01
  • Python操作MySQL的方法詳細解讀

    Python操作MySQL的方法詳細解讀

    這篇文章主要介紹了Python操作MySQL的方法詳細解讀,在Python中,通過使用第三方庫:pymysql,完成對MySQL數(shù)據(jù)庫的操作,Python操作MySQL并不難,難點是如何編寫合適的SQL語句,需要的朋友可以參考下
    2023-11-11
  • python 缺失值處理的方法(Imputation)

    python 缺失值處理的方法(Imputation)

    這篇文章主要介紹了python 缺失值處理的方法(Imputation),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-07-07
  • Python爬蟲實戰(zhàn)JS逆向AES逆向加密爬取

    Python爬蟲實戰(zhàn)JS逆向AES逆向加密爬取

    一個建筑行業(yè)的堂哥為了搞一些商業(yè)數(shù)據(jù)前前后后花了1w,辣條我半個小時就能解決的事情,這就是技術(shù)的魅力!聲明:爬取是的公開數(shù)據(jù)
    2021-10-10
  • 淺談Python函數(shù)式編程的返回函數(shù)與匿名函數(shù)

    淺談Python函數(shù)式編程的返回函數(shù)與匿名函數(shù)

    這篇文章主要介紹了淺談Python函數(shù)式編程的返回函數(shù)與匿名函數(shù),如果一個變量指向了一個函數(shù),那么,可以通過該變量來調(diào)用這個函數(shù),需要的朋友可以參考下
    2023-04-04
  • python獲取linux和windows系統(tǒng)指定接口的IP地址的步驟及代碼

    python獲取linux和windows系統(tǒng)指定接口的IP地址的步驟及代碼

    這篇文章主要介紹了python獲取linux和windows系統(tǒng)指定接口的IP地址,本文分步驟通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-05-05
  • Pytorch上下采樣函數(shù)--interpolate用法

    Pytorch上下采樣函數(shù)--interpolate用法

    這篇文章主要介紹了Pytorch上下采樣函數(shù)--interpolate用法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-07-07
  • Centos7 下安裝最新的python3.8

    Centos7 下安裝最新的python3.8

    Python 3.8是Python語言的最新版本,它適合用于編寫腳本、自動化以及機器學習和Web開發(fā)等各種任務。這篇文章主要介紹了Centos7 下安裝最新的python3.8,需要的朋友可以參考下
    2019-10-10

最新評論