Python Scrapy框架:通用爬蟲之CrawlSpider用法簡單示例
本文實例講述了Python Scrapy框架:通用爬蟲之CrawlSpider用法。分享給大家供大家參考,具體如下:
步驟01: 創(chuàng)建爬蟲項目
scrapy startproject quotes
步驟02: 創(chuàng)建爬蟲模版
scrapy genspider -t quotes quotes.toscrape.com
步驟03: 配置爬蟲文件quotes.py
import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class Quotes(CrawlSpider): # 爬蟲名稱 name = "get_quotes" allow_domain = ['quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com/'] # 設定規(guī)則 rules = ( # 對于quotes內容頁URL,調用parse_quotes處理, # 并以此規(guī)則跟進獲取的鏈接 Rule(LinkExtractor(allow=r'/page/\d+'), callback='parse_quotes', follow=True), # 對于author內容頁URL,調用parse_author處理,提取數(shù)據(jù) Rule(LinkExtractor(allow=r'/author/\w+'), callback='parse_author') ) # 提取內容頁數(shù)據(jù)方法 def parse_quotes(self, response): for quote in response.css(".quote"): yield {'content': quote.css('.text::text').extract_first(), 'author': quote.css('.author::text').extract_first(), 'tags': quote.css('.tag::text').extract() } # 獲取作者數(shù)據(jù)方法 def parse_author(self, response): name = response.css('.author-title::text').extract_first() author_born_date = response.css('.author-born-date::text').extract_first() author_bron_location = response.css('.author-born-location::text').extract_first() author_description = response.css('.author-description::text').extract_first() return ({'name': name, 'author_bron_date': author_born_date, 'author_bron_location': author_bron_location, 'author_description': author_description })
步驟04: 運行爬蟲
scrapy crawl quotes
更多相關內容可查看本站專題:《Python Socket編程技巧總結》、《Python正則表達式用法總結》、《Python數(shù)據(jù)結構與算法教程》、《Python函數(shù)使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家基于Scrapy框架的Python程序設計有所幫助。
相關文章
python人工智能human?learn繪圖創(chuàng)建機器學習模型
這篇文章主要為大家介紹了python人工智能human?learn繪圖就可以創(chuàng)建機器學習模型的示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-11-11基于Python第三方插件實現(xiàn)西游記章節(jié)標注漢語拼音的方法
這篇文章主要介紹了基于Python第三方插件實現(xiàn)西游記章節(jié)標注漢語拼音的方法,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-05-05python GUI庫圖形界面開發(fā)之PyQt5信號與槽事件處理機制詳細介紹與實例解析
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5信號與槽事件處理機制詳細介紹與實例解析,需要的朋友可以參考下2020-03-03對Python生成漢字字庫文字,以及轉換為文字圖片的實例詳解
今天小編就為大家分享一篇對Python生成漢字字庫文字,以及轉換為文字圖片的實例詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01python簡易實現(xiàn)任意位數(shù)的水仙花實例
今天小編就為大家分享一篇python簡易實現(xiàn)任意位數(shù)的水仙花實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11