欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲教程使用Scrapy框架爬取小說代碼示例

 更新時(shí)間:2021年09月10日 17:07:24   作者:霖hero  
相信學(xué)Python爬蟲的小伙伴聽說過Scrapy框架,也用過Scrapy框架,今天我們邊學(xué)習(xí)Scrapy框架邊爬取整部小說,讓大家在不知不覺的學(xué)習(xí)過程中使用Scrapy框架完成整部小說的爬取

Scrapy框架簡(jiǎn)單介紹

Scrapy框架是一個(gè)基于Twisted的異步處理框架,是純Python實(shí)現(xiàn)的爬蟲框架,是提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,其架構(gòu)清晰,模塊之間的耦合程度低,可擴(kuò)展性極強(qiáng),我們只需要少量的代碼就能夠快速抓取數(shù)據(jù)。

其框架如下圖所示:

Scrapy Engine是整個(gè)框架的核心,而涉及到我們編寫代碼的模塊一般只有Item Pipeline模塊和Spiders模塊。

創(chuàng)建Scrapy項(xiàng)目

首先我們通過以下代碼來創(chuàng)建Scrapy項(xiàng)目,執(zhí)行代碼如下圖所示:

Scrapy startproject Fiction

運(yùn)行結(jié)果如下圖所示:

通過上圖可知,我們?cè)贑盤創(chuàng)建了一個(gè)新的Scrapy項(xiàng)目,項(xiàng)目名為Fiction,而且還提示我們可以通過以下命令創(chuàng)建第一個(gè)Spider爬蟲,命令如下所示:

cd Fiction          #進(jìn)入目錄
scrapy genspider example example.com    #創(chuàng)建spider爬蟲

其中example是我們爬蟲名,example.com是爬蟲爬取的范圍,也就是網(wǎng)站的域名。

Fiction文件夾內(nèi)容如下圖所示:

創(chuàng)建Spider爬蟲

在上面的步驟我們成功創(chuàng)建了一個(gè)Scrapy項(xiàng)目,而且知道如何創(chuàng)建Spider爬蟲,接下來我們創(chuàng)建名為fiction的Spider爬蟲,其域名為www.17k.com,代碼如下所示:

scrapy genspider fiction www.17k.com

運(yùn)行后,spiders文件夾中多了我們剛才創(chuàng)建fiction.py,這個(gè)就是我們創(chuàng)建的Spider爬蟲。

如下圖所示:

看到這么多py文件是不是慌了,其實(shí)不用慌,一般情況我們主要在剛創(chuàng)建的spider爬蟲文件、items.py和pipelines.py進(jìn)行編寫代碼,其中:

  • fiction.py:主要編寫代碼定義爬取的邏輯,解析響應(yīng)并生成提取結(jié)果和新的請(qǐng)求;
  • items.py:主要先定義好爬取數(shù)據(jù)的字段,避免拼寫錯(cuò)誤或者定義字段錯(cuò)誤,當(dāng)然我們可以不先定義好字段,而在fiction.py中直接定義;
  • pipelines.py:主要是編寫數(shù)據(jù)清洗、驗(yàn)證和存儲(chǔ)數(shù)據(jù)的代碼,當(dāng)我們把數(shù)據(jù)存儲(chǔ)在csv、xml、pickle、marshal、json等文件時(shí),就不需要在pipelines.py中編寫代碼了,只需要執(zhí)行以下代碼即可:
scrapy crawl fiction 文件名.后綴

當(dāng)數(shù)據(jù)需要保存在MongoDB數(shù)據(jù)庫(kù)時(shí),則編寫以下代碼即可:

from pymongo import  MongoClient
client=MongoClient()
collection=client["Fiction"]["fiction"]
​class Test1Pipeline:
    def process_item(self, item, spider):
        collection.insert(item)
        return item

Spider爬蟲提取數(shù)據(jù)

在提取數(shù)據(jù)前,首先我們進(jìn)入要爬取小說網(wǎng)站并打開開發(fā)者工具,如下圖所示:

我們通過上圖可以發(fā)現(xiàn),<dl class="Volume">存放著我們所有小說章節(jié)名,點(diǎn)擊該章節(jié)就可以跳轉(zhuǎn)到對(duì)應(yīng)的章節(jié)頁(yè)面,所以可以使用Xpath來通過這個(gè)div作為我們的xpath爬取范圍,通過for循環(huán)來遍歷獲取每個(gè)章節(jié)的名和URL鏈接。

跳轉(zhuǎn)章節(jié)內(nèi)容頁(yè)面后,打開開發(fā)者工具,如下圖所示:

通過上圖可以發(fā)現(xiàn),小說內(nèi)容存儲(chǔ)在<div class="readAreaBox">里面,我們可以通過for循環(huán)來遍歷該dl中的<div class="p">獲取到章節(jié)的全部?jī)?nèi)容,當(dāng)然也是通過使用Xpath來獲取。

items.py代碼定義字段

細(xì)心的小伙伴就發(fā)現(xiàn)了,我們所需要提前的字段有章節(jié)名、章節(jié)URL鏈接和章節(jié)內(nèi)容,其中章節(jié)名和章節(jié)內(nèi)容是需要進(jìn)行數(shù)據(jù)保存的,所以可以先在items.py文件中定義好字段名,具體代碼如下所示:

import scrapy
​class FictionItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    text = scrapy.Field()

定義字段很簡(jiǎn)單,字段名=scrapy.Field()即可。

對(duì)了,在items.py定義好字段有個(gè)最好的好處是當(dāng)我們?cè)讷@取到數(shù)據(jù)的時(shí)候,使用不同的item來存放不同的數(shù)據(jù),在把數(shù)據(jù)交給pipeline的時(shí)候,可以通過isinstance(item,FictionItem)來判斷數(shù)據(jù)屬于哪個(gè)item,進(jìn)行不同的數(shù)據(jù)(item)處理。

定義好字段后,這是我們通過在pipeline.py文件中編寫代碼,對(duì)不同的item數(shù)據(jù)進(jìn)行區(qū)分,具體代碼如下:

from Fiction.items import FictionItem
class FictionPipeline:
    def process_item(self, item, spider):
        if isinstance(item,FictionItem):
            print(item)

當(dāng)然,在我們爬取的項(xiàng)目中,只需要一個(gè)class類,在上面的代碼只是為了展示如何判斷區(qū)分?jǐn)?shù)據(jù)屬于哪個(gè)item。

fiction.py代碼提取數(shù)據(jù)

fiction.py文件也就是我們創(chuàng)建的spider爬蟲,打開fiction.py文件,其代碼內(nèi)容如下所示:

import scrapy
class FictionSpider(scrapy.Spider):
    name = 'fiction'
    allowed_domains = ['www.17k.com']
    start_urls = ['http://www.17k.com/']
​    def parse(self, response):
        pass

其中:

  • name是定義此爬蟲名稱的字符串,每個(gè)項(xiàng)目唯一的名字,用來區(qū)分不同的Spider,啟動(dòng)爬蟲時(shí)使用scrapy crawl +該爬蟲名字;
  • allowed_domains是允許爬取的域名,防止爬蟲爬到其他網(wǎng)站;
  • start_urls是最開始爬取的url;
  • parse()方法是負(fù)責(zé)解析返回響應(yīng)、提取數(shù)據(jù)或進(jìn)一步生成要處理的請(qǐng)求,注意:不能修改這個(gè)方法的名字。

大致了解該文件內(nèi)容的各個(gè)部分后,我們開始提取首頁(yè)的章節(jié)名和章節(jié)URL鏈接,具體代碼如下所示:

import scrapy
from Fiction.items import FictionItem
​class FictionSpider(scrapy.Spider):
    name = 'fiction'
    allowed_domains = ['www.17k.com']
    start_urls = ['https://www.17k.com/list/2536069.html']
​    def parse(self, response):
        html = response.xpath('//dl[@class="Volume"]')
        books = html.xpath('./dd/a')
        for book in books:
            item =FictionItem()
            item['name'] = []
            name = book.xpath('./span/text()').extract()
            for i in name:
                item['name'].append(i.replace('\n', '').replace('\t', ''))
            href = book.xpath('./@href').extract_first()
             + href
            yield scrapy.Request(url=href, callback=self.parse_detail, meta={'item': item})

首先導(dǎo)入FictionItem,再我們把start_urls鏈接修改為待會(huì)要爬的URL鏈接,在parse()方法中,使用xpath獲取章節(jié)名和章節(jié)URL鏈接,通過for循環(huán)調(diào)用FictionItem(),再把章節(jié)名存放在item里面。

通過生成器yield 返回調(diào)用scrapy.Request()方法,其中:

  • url=href:表示下一個(gè)爬取的URL鏈接;
  • callback:表示指定parse_detail函數(shù)作為解析處理;
  • meta:實(shí)現(xiàn)在不同的解析函數(shù)中傳遞數(shù)據(jù)。

在上一步中我們指定了parse_detail函數(shù)作為解析處理,接下來將編寫parse_detail函數(shù)來獲取章節(jié)內(nèi)容,具體代碼如下所示:

    def parse_detail(self,response):
        string=""
        item=response.meta['item']
        content=response.xpath('//*[@id="readArea"]/div[1]/div[2]//p/text()').extract()
        for i in content:
            string=string+i+'\n'
        item['text']=string
        yield item

首先我們定義了一個(gè)空變量string,在通過response.meta[]來接收item數(shù)據(jù),其參數(shù)為上一步中的meta={'item': item}的item,接下來獲取章節(jié)內(nèi)容,最后將章節(jié)內(nèi)容存儲(chǔ)在item['text']中,并通過生成器yield返回?cái)?shù)據(jù)給引擎。

pipelines.py代碼保存數(shù)據(jù)

章節(jié)名和章節(jié)內(nèi)容已經(jīng)全部獲取下來了,接下來我們把獲取下來的數(shù)據(jù)保存為txt文件,具體代碼如下所示:

from Fiction.items import FictionItem
import time
class FictionPipeline:
    def open_spider(self, spider):
        print(time.time())
    def process_item(self, item, spider):
        if isinstance(item, FictionItem):
            title = item['name']
            content = item['text']
            with open(f'小說/{title[0]}.txt', 'w', encoding='utf-8')as f:
                f.write(content)
    def close_spider(self, spider):
        print(time.time())

首先我們導(dǎo)入FictionItem、time,在open_spider()和close_spider()方法編寫代碼調(diào)用time.time()來獲取爬取的開始時(shí)間和結(jié)束時(shí)間,再在process_item()方法中,把引擎返回的item['name']和item['text']分別存放在title和content中,并通過open打開txt文件,調(diào)用write()把章節(jié)內(nèi)容寫入在txt文件中。

settings.py代碼啟動(dòng)爬蟲

在啟動(dòng)爬蟲前,我們先要在settings.py文件中啟動(dòng)引擎,啟動(dòng)方式很簡(jiǎn)單,只要找到下圖中的代碼,并取消代碼的注釋即可:

有人可能問:那User-Agent在哪里設(shè)置?我們可以在settings.py文件中,設(shè)置User-Agent,具體代碼如下:

好了,所有代碼已經(jīng)編寫完畢了,接下來將啟動(dòng)爬蟲了,執(zhí)行代碼如下:

scrapy crawl fiction

啟動(dòng)爬蟲后,發(fā)現(xiàn)我們控制臺(tái)里面多了很多l(xiāng)og日志數(shù)據(jù)的輸出,這時(shí)可以通過在settings.py添加以下代碼,就可以屏蔽這些log日志:

LOG_LEVEL="WARNING"

結(jié)果展示

好了,scrapy框架爬取小說就講到這里了,感覺大家的觀看?。?!

更多關(guān)于Python爬蟲教程Scrapy框架爬取的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • python變量數(shù)據(jù)類型和運(yùn)算符

    python變量數(shù)據(jù)類型和運(yùn)算符

    這篇文章主要介紹了python變量數(shù)據(jù)類型和運(yùn)算符,不同類型的變量可以進(jìn)行的運(yùn)算是不同的,所以必須理解變量的類型,下面文章的更多相關(guān)內(nèi)容介紹,需要的小伙伴可以參考一下
    2022-07-07
  • 基于Python3中運(yùn)算符 **和*的區(qū)別說明

    基于Python3中運(yùn)算符 **和*的區(qū)別說明

    這篇文章主要介紹了Python3中運(yùn)算符 **和*的具體區(qū)別,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • Python+OpenCV實(shí)現(xiàn)基本的圖像處理操作

    Python+OpenCV實(shí)現(xiàn)基本的圖像處理操作

    說到圖像處理,那必然要提到opencv模塊了。本文將從最基本的opencv模塊在圖像的基本操作上說起,利用Python+OpenCV實(shí)現(xiàn)圖像的讀取保存等,感興趣的可以了解一下
    2022-07-07
  • python使用torch隨機(jī)初始化參數(shù)

    python使用torch隨機(jī)初始化參數(shù)

    這篇文章主要介紹了python使用torch隨機(jī)初始化參數(shù),文章圍繞torch隨機(jī)初始化參數(shù)的相關(guān)資料展開文章詳細(xì)內(nèi)容,具有一定的參考價(jià)值,需要的小伙伴可以參考一下,希望對(duì)你有所幫助
    2022-03-03
  • Keras之自定義損失(loss)函數(shù)用法說明

    Keras之自定義損失(loss)函數(shù)用法說明

    這篇文章主要介紹了Keras之自定義損失(loss)函數(shù)用法說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-06-06
  • 用python計(jì)算文件的MD5值

    用python計(jì)算文件的MD5值

    這篇文章主要介紹了用python計(jì)算文件的MD5值的方法,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2020-12-12
  • python中第三方庫(kù)lxml庫(kù)的最新詳細(xì)安裝步驟

    python中第三方庫(kù)lxml庫(kù)的最新詳細(xì)安裝步驟

    這篇文章主要給大家介紹了關(guān)于python中第三方庫(kù)lxml庫(kù)的最新詳細(xì)安裝步驟,lxml是一種使用Python編寫的庫(kù),可以迅速、靈活地處理 XML,文中通過圖文介紹的非常詳細(xì),需要的朋友可以參考下
    2023-12-12
  • python opencv 實(shí)現(xiàn)對(duì)圖像邊緣擴(kuò)充

    python opencv 實(shí)現(xiàn)對(duì)圖像邊緣擴(kuò)充

    今天小編就為大家分享一篇python opencv 實(shí)現(xiàn)對(duì)圖像邊緣擴(kuò)充,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • Python圖像運(yùn)算之圖像掩膜直方圖和HS直方圖詳解

    Python圖像運(yùn)算之圖像掩膜直方圖和HS直方圖詳解

    這篇文章將為大家詳細(xì)講解圖像掩膜直方圖和HS直方圖,并分享一個(gè)通過直方圖判斷白天與黑夜的案例。文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下
    2022-08-08
  • Python使用遺傳算法解決最大流問題

    Python使用遺傳算法解決最大流問題

    這篇文章主要為大家詳細(xì)介紹了Python使用遺傳算法解決最大流問題,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-01-01

最新評(píng)論