Python Scrapy框架：通用爬蟲之CrawlSpider用法簡單示例

更新時間：2020年04月11日 13:23:48 作者：hankleo

這篇文章主要介紹了Python Scrapy框架：通用爬蟲之CrawlSpider用法,結合實例形式分析了Scrapy框架中CrawlSpider的基本使用方法,需要的朋友可以參考下

本文實例講述了Python Scrapy框架：通用爬蟲之CrawlSpider用法。分享給大家供大家參考，具體如下：

步驟01: 創(chuàng)建爬蟲項目

scrapy startproject quotes

步驟02: 創(chuàng)建爬蟲模版

scrapy genspider -t quotes quotes.toscrape.com

步驟03: 配置爬蟲文件quotes.py

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class Quotes(CrawlSpider):
 # 爬蟲名稱
  name = "get_quotes"
  allow_domain = ['quotes.toscrape.com']
  start_urls = ['http://quotes.toscrape.com/']

# 設定規(guī)則
  rules = (
    # 對于quotes內容頁URL，調用parse_quotes處理，
    # 并以此規(guī)則跟進獲取的鏈接
    Rule(LinkExtractor(allow=r'/page/\d+'), callback='parse_quotes', follow=True),
    # 對于author內容頁URL，調用parse_author處理，提取數(shù)據(jù)
    Rule(LinkExtractor(allow=r'/author/\w+'), callback='parse_author')
  )

# 提取內容頁數(shù)據(jù)方法
  def parse_quotes(self, response):
    for quote in response.css(".quote"):
      yield {'content': quote.css('.text::text').extract_first(),
          'author': quote.css('.author::text').extract_first(),
          'tags': quote.css('.tag::text').extract()
          }
 # 獲取作者數(shù)據(jù)方法

  def parse_author(self, response):
    name = response.css('.author-title::text').extract_first()
    author_born_date = response.css('.author-born-date::text').extract_first()
    author_bron_location = response.css('.author-born-location::text').extract_first()
    author_description = response.css('.author-description::text').extract_first()

    return ({'name': name,
         'author_bron_date': author_born_date,
         'author_bron_location': author_bron_location,
         'author_description': author_description
         })

步驟04: 運行爬蟲

scrapy crawl quotes

希望本文所述對大家基于Scrapy框架的Python程序設計有所幫助。

您可能感興趣的文章:

python人工智能human?learn繪圖創(chuàng)建機器學習模型
這篇文章主要為大家介紹了python人工智能human?learn繪圖就可以創(chuàng)建機器學習模型的示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助
2021-11-11
Python 使用SMTP發(fā)送郵件的代碼小結
python的smtplib提供了一種很方便的途徑發(fā)送電子郵件。它對smtp協(xié)議進行了簡單的封裝,需要的朋友可以參考下
2016-09-09
python中的字符串類型解讀
這篇文章主要介紹了python中的字符串類型,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2024-06-06
基于Python第三方插件實現(xiàn)西游記章節(jié)標注漢語拼音的方法
這篇文章主要介紹了基于Python第三方插件實現(xiàn)西游記章節(jié)標注漢語拼音的方法,本文通過實例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-05-05
python GUI庫圖形界面開發(fā)之PyQt5信號與槽事件處理機制詳細介紹與實例解析
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5信號與槽事件處理機制詳細介紹與實例解析,需要的朋友可以參考下
2020-03-03
Python3 SSH遠程連接服務器的方法示例
這篇文章主要介紹了Python3 SSH遠程連接服務器的方法示例，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2018-12-12
Python實現(xiàn)本地緩存的幾種方法小結
緩存是一種常見的技術,用于存儲重復請求的結果,Python 作為一種靈活的編程語言,提供了多種實現(xiàn)本地緩存的方法,本文將探討 Python 中實現(xiàn)本地緩存的幾種策略,并提供具體的代碼示例,感興趣的小伙伴跟著小編一起來看看吧
2024-07-07
對Python生成漢字字庫文字,以及轉換為文字圖片的實例詳解
今天小編就為大家分享一篇對Python生成漢字字庫文字,以及轉換為文字圖片的實例詳解，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-01-01
Python 創(chuàng)建守護進程的示例
這篇文章主要介紹了Python 創(chuàng)建守護進程的示例，幫助大家更好的理解和使用python，感興趣的朋友可以了解下
2020-09-09
python簡易實現(xiàn)任意位數(shù)的水仙花實例
今天小編就為大家分享一篇python簡易實現(xiàn)任意位數(shù)的水仙花實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-11-11