欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

教你用scrapy框架爬取豆瓣讀書Top250的書類信息

 更新時間:2023年03月30日 10:13:24   作者:隨風(fēng)的博客  
這篇文章主要介紹了教你用scrapy框架爬取豆瓣讀書Top250的書類信息,文中提供了解決思路和部分實現(xiàn)代碼,需要的朋友可以參考下

安裝方法:Windows:在終端輸入命令:pip install scrapy;mac:在終端輸入命令:pip3 install scrapy,按下enter鍵,再輸入cd Python,就能跳轉(zhuǎn)到Python文件夾。接著輸入cd Pythoncode,就能跳轉(zhuǎn)到Python文件夾里的Pythoncode子文件夾。最后輸入一行能幫我們創(chuàng)建Scrapy項目的命令:scrapy startproject douban,douban就是Scrapy項目的名字。按下enter鍵,一個Scrapy項目就創(chuàng)建成功了。

項目目標(biāo):

爬取豆瓣讀書Top250的書名,出版信息和評分

目標(biāo)url為:https://book.douban.com/top250?start=0
整個scrapy項目的結(jié)構(gòu),如下圖

在這里插入圖片描述

spiders是放置爬蟲的目錄。我們在spiders這個文件夾里創(chuàng)建爬蟲文件,我們把這個文件命名為top250,大部分代碼都需要在這個top250.py文件里編寫。在top250.py文件里導(dǎo)入我們需要的模塊:import scrapy , bs4
導(dǎo)入scrapy是我們要用創(chuàng)建類的方式寫這個爬蟲,我們所創(chuàng)建的類將直接繼承scrapy中的scrapy.Spider類。這樣,有許多好用屬性和方法,就能夠直接使用。

在Scrapy中,每個爬蟲的代碼結(jié)構(gòu)基本都如下所示:

class DoubanSpider(scrapy.Spider): #定義一個爬蟲類DoubanSpider,DoubanSpider類繼承自scrapy.Spider類。
    name = 'douban'  #定義爬蟲的名字,這個名字是爬蟲的唯一標(biāo)識。
    allowed_domains = ['book.douban.com']#定義允許爬蟲爬取的網(wǎng)址域名(不需要加https://)。如果網(wǎng)址的域名不在這個列表里,就會被過濾掉。allowed_domains就限制了,我們這種關(guān)聯(lián)爬取的URL,一定在book.douban.com這個域名之下,不會跳轉(zhuǎn)到某個奇怪的廣告頁面。
    start_urls = ['https://book.douban.com/top250?start=0']#定義起始網(wǎng)址,就是爬蟲從哪個網(wǎng)址開始抓取
    
    def parse(self, response):#parse是Scrapy里默認(rèn)處理response的一個方法,中文是解析。
        print(response.text)
#這里我們并不需要寫類似requests.get()的語句,scrapy框架會為我們代勞做這件事,寫好你的請求,接下來你就可以直接寫對響應(yīng)如何做處理

每一次,當(dāng)數(shù)據(jù)完成記錄,它會離開spiders,來到Scrapy Engine(引擎),引擎將它送入Item Pipeline(數(shù)據(jù)管道)處理。定義這個類的py文件,正是items.py。
如果要爬取豆瓣讀書的書名、出版信息和評分,示例:

在items.py里如何定義數(shù)據(jù):

import scrapy
#導(dǎo)入scrapy
class DoubanItem(scrapy.Item):
#定義一個類DoubanItem,它繼承自scrapy.Item
    title = scrapy.Field()
    #定義書名的數(shù)據(jù)屬性
    publish = scrapy.Field()
    #定義出版信息的數(shù)據(jù)屬性
    score = scrapy.Field()
    #定義評分的數(shù)據(jù)屬性

scrapy.Field()這行代碼實現(xiàn)的是,讓數(shù)據(jù)能以類似字典的形式記錄,它輸出的結(jié)果非常像字典,但它卻并不是dict,它的數(shù)據(jù)類型是我們定義的DoubanItem,屬于自定義的Python字典.我們利用類似上述代碼的樣式,去重新寫top250.py

import scrapy
import bs4
from ..items import DoubanItem
# 需要引用DoubanItem,它在items里面。因為是items在top250.py的上一級目錄,所以要用..items,這是一個固定用法。

class DoubanSpider(scrapy.Spider):
#定義一個爬蟲類DoubanSpider。
    name = 'douban'
    #定義爬蟲的名字為douban。
    allowed_domains = ['book.douban.com']
    #定義爬蟲爬取網(wǎng)址的域名。
    start_urls = []
    #定義起始網(wǎng)址。
    for x in range(3):
        url = 'https://book.douban.com/top250?start=' + str(x * 25)
        start_urls.append(url)
        #把豆瓣Top250圖書的前3頁網(wǎng)址添加進(jìn)start_urls。

    def parse(self, response):
    #parse是默認(rèn)處理response的方法。
        bs = bs4.BeautifulSoup(response.text,'html.parser')
        #用BeautifulSoup解析response。
        datas = bs.find_all('tr',class_="item")
        #用find_all提取<tr class="item">元素,這個元素里含有書籍信息。
        for data in  datas:
        #遍歷data。
            item = DoubanItem()
            #實例化DoubanItem這個類。
            item['title'] = data.find_all('a')[1]['title']
            #提取出書名,并把這個數(shù)據(jù)放回DoubanItem類的title屬性里。
            item['publish'] = data.find('p',class_='pl').text
            #提取出出版信息,并把這個數(shù)據(jù)放回DoubanItem類的publish里。
            item['score'] = data.find('span',class_='rating_nums').text
            #提取出評分,并把這個數(shù)據(jù)放回DoubanItem類的score屬性里。
            print(item['title'])
            #打印書名。
            yield item
            #yield item是把獲得的item傳遞給引擎。

當(dāng)我們每一次,要記錄數(shù)據(jù)的時候,比如前面在每一個最小循環(huán)里,都要記錄“書名”,“出版信息”,“評分”。我們會實例化一個item對象,利用這個對象來記錄數(shù)據(jù)。
每一次,當(dāng)數(shù)據(jù)完成記錄,它會離開spiders,來到Scrapy Engine(引擎),引擎將它送入Item Pipeline(數(shù)據(jù)管道)處理。這里,要用到y(tǒng)ield語句。
yield語句它有點類似return,不過它和return不同的點在于,它不會結(jié)束函數(shù),且能多次返回信息。

在這里插入圖片描述

就如同上圖所示:爬蟲(Spiders)會把豆瓣的10個網(wǎng)址封裝成requests對象,引擎會從爬蟲(Spiders)里提取出requests對象,再交給調(diào)度器(Scheduler),讓調(diào)度器把這些requests對象排序處理。然后引擎再把經(jīng)過調(diào)度器處理的requests對象發(fā)給下載器(Downloader),下載器會立馬按照引擎的命令爬取,并把response返回給引擎。
緊接著引擎就會把response發(fā)回給爬蟲(Spiders),這時爬蟲會啟動默認(rèn)的處理response的parse方法,解析和提取出書籍信息的數(shù)據(jù),使用item做記錄,返回給引擎。引擎將它送入Item Pipeline(數(shù)據(jù)管道)處理。

代碼實操——設(shè)置

點擊settings.py文件,把USER _AGENT的注釋取消(刪除#),然后替換掉user-agent的內(nèi)容,就是修改了請求頭。
因為Scrapy是遵守robots協(xié)議的,如果是robots協(xié)議禁止爬取的內(nèi)容,Scrapy也會默認(rèn)不去爬取,所以修改Scrapy中的默認(rèn)設(shè)置。把ROBOTSTXT_OBEY=True改成ROBOTSTXT_OBEY=False,就是把遵守robots協(xié)議換成無需遵從robots協(xié)議,這樣Scrapy就能不受限制地運行。

1.

想要運行Scrapy有兩種方法,一種是在本地電腦的終端跳轉(zhuǎn)到scrapy項目的文件夾

(跳轉(zhuǎn)方法:cd+文件夾的路徑名如:
cd D:\python\Pythoncode\douban\douban)
然后輸入命令行:scrapy crawl douban(douban 就是我們爬蟲的名字)。)

2.

另一種運行方式需要我們在最外層的大文件夾里新建一個main.py文件(與scrapy.cfg同級)。

然后在這個main.py文件里,輸入以下代碼,點擊運行,Scrapy的程序就會啟動。

from scrapy import cmdline
#導(dǎo)入cmdline模塊,可以實現(xiàn)控制終端命令行。
cmdline.execute(['scrapy','crawl','douban'])
#用execute()方法,輸入運行scrapy的命令。

第1行代碼:在Scrapy中有一個可以控制終端命令的模塊cmdline。導(dǎo)入了這個模塊,我們就能操控終端。
第2行代碼:在cmdline模塊中,有一個execute方法能執(zhí)行終端的命令行,不過這個方法需要傳入列表的參數(shù)。我們想輸入運行Scrapy的代碼scrapy crawl douban,就需要寫成[‘scrapy’,‘crawl’,‘douban’]這樣。
在實際項目實戰(zhàn)中,我們應(yīng)該先定義數(shù)據(jù),再寫爬蟲。所以,流程圖應(yīng)如下:

在這里插入圖片描述


最后,存儲數(shù)據(jù)需要修改pipelines.py文件

到此這篇關(guān)于教你用scrapy框架爬取豆瓣讀書Top250的書類信息的文章就介紹到這了,更多相關(guān)scrapy爬取豆瓣書類信息內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python報錯too?many?values?to?unpack問題及解決

    Python報錯too?many?values?to?unpack問題及解決

    這篇文章主要介紹了Python報錯too?many?values?to?unpack問題及解決方案,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-05-05
  • Python正則表達(dá)式使用范例分享

    Python正則表達(dá)式使用范例分享

    本文給大家總結(jié)了7個常用的Python正則表達(dá)式的使用范例以及簡單解釋分析,有需要的小伙伴可以參考下
    2016-12-12
  • python內(nèi)存管理機制原理詳解

    python內(nèi)存管理機制原理詳解

    這篇文章主要介紹了python內(nèi)存管理機制原理詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-08-08
  • python根據(jù)路徑導(dǎo)入模塊的方法

    python根據(jù)路徑導(dǎo)入模塊的方法

    這篇文章主要介紹了python根據(jù)路徑導(dǎo)入模塊的方法,分析了傳統(tǒng)方法與改進(jìn)方法,具有一定的實用價值,需要的朋友可以參考下
    2014-09-09
  • Python利用lxml庫實現(xiàn)XML處理

    Python利用lxml庫實現(xiàn)XML處理

    lxml庫是Python中處理XML和HTML文檔的強大庫,提供了豐富的API以進(jìn)行各種操作,本文將討論如何使用lxml庫,包括如何創(chuàng)建XML文檔,如何使用XPath查詢,以及如何解析大型XML文檔,需要的可以參考下
    2023-08-08
  • selenium在scrapy中的使用代碼

    selenium在scrapy中的使用代碼

    本文給大家分享selenium在scrapy中的使用代碼,使用selenium可以很好的幫助我們獲取一些重要數(shù)據(jù)信息,本文通過代碼給大家詳細(xì)介紹,感興趣的朋友跟隨小編一起看看吧
    2021-05-05
  • plt.title()中文無法顯示的問題解決

    plt.title()中文無法顯示的問題解決

    本文主要介紹了plt.title()中文無法顯示的問題解決,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-04-04
  • Python實現(xiàn)簡單查找最長子串功能示例

    Python實現(xiàn)簡單查找最長子串功能示例

    這篇文章主要介紹了Python實現(xiàn)簡單查找最長子串功能,涉及字符串遍歷、統(tǒng)計等相關(guān)操作技巧,需要的朋友可以參考下
    2019-02-02
  • pytorch實現(xiàn)用Resnet提取特征并保存為txt文件的方法

    pytorch實現(xiàn)用Resnet提取特征并保存為txt文件的方法

    今天小編大家分享一篇pytorch實現(xiàn)用Resnet提取特征并保存為txt文件的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-08-08
  • Python 操作SQLite數(shù)據(jù)庫詳情

    Python 操作SQLite數(shù)據(jù)庫詳情

    這篇文章主要介紹了Python 操作SQLite數(shù)據(jù)庫,SQLite,是一款輕型的數(shù)據(jù)庫,是遵守ACID的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),它包含在一個相對小的C庫中,下面來看看詳細(xì)內(nèi)容,需要的朋友可以參考一下
    2021-11-11

最新評論