Python的爬蟲框架scrapy用21行代碼寫一個(gè)爬蟲
開發(fā)說明
開發(fā)環(huán)境:Pycharm 2017.1(目前最新)
開發(fā)框架:Scrapy 1.3.3(目前最新)
目標(biāo)
爬取線報(bào)網(wǎng)站,并把內(nèi)容保存到items.json里
頁面分析
根據(jù)上圖我們可以發(fā)現(xiàn)內(nèi)容都在類為post這個(gè)div里
下面放出post的代碼
<div class="post"> <!-- baidu_tc block_begin: {"action": "DELETE"} --> <div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end --> <h2><a rel="external nofollow" title="4月7日 淘金幣淘里程領(lǐng)取京東簽到" rel="bookmark" target="_blank">4月7日 淘金幣淘里程領(lǐng)取京東簽到</a><span>已結(jié)束</span></h2> <h6>發(fā)布日期: 2017-04-07 | 分類: <a rel="external nofollow" >虛擬幣</a> | 瀏覽:125177 </h6><div class="intro"><p>淘金幣一鍵領(lǐng)取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【電腦端30金幣】 https://taojinbi.taobao.com/inde ... auto_take=true 【手機(jī)端30金幣】 http://h5.m.taobao...</p></div></div>
實(shí)現(xiàn)方法
1、定義items
class DemoItem(scrapy.Item): id = scrapy.Field() title = scrapy.Field() href = scrapy.Field() content = scrapy.Field()
2、新建一個(gè)爬蟲名為test
# -*- coding: utf-8 -*- import scrapy from demo.items import DemoItem from scrapy.http import Request class TestSpider(scrapy.Spider): #定義爬蟲的名字和需要爬取的網(wǎng)址 name = "test" allowed_domains = ["www.abckg.com"] start_urls = ['http://www.abckg.com/'] def parse(self, response): for resp in response.css('.post'): #實(shí)例化item item = DemoItem() #把獲取到的內(nèi)容保存到item內(nèi) item['href'] = resp.css('h2 a::attr(href)').extract() item['title'] = resp.css('h2 a::text').extract() item['content'] = resp.css('.intro p::text').extract() yield item #下面是多頁面的爬取方法 urls = response.css('.pageinfo a::attr(href)').extract() for url in urls: yield Request(url, callback=self.parse) categorys = response.css('.menu li a::attr(href)').extract() for ct in categorys: yield Request(ct, callback=self.parse)
3、修改settings.py,添加以下代碼
FEED_EXPORT_ENCODING = 'utf-8'
#運(yùn)行
打開cmd輸入
scrapy crawl test -o items.json
已知bug
如果多次運(yùn)行該爬蟲,不會(huì)覆蓋原有的內(nèi)容,而是追加數(shù)據(jù)(好像是scrapy的bug)
可拓展內(nèi)容
1、定時(shí)運(yùn)行爬蟲,當(dāng)檢查到網(wǎng)站更新時(shí)獲取新數(shù)據(jù)并發(fā)郵件通知
2、檢測數(shù)據(jù)是否重復(fù)
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者使用python能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
相關(guān)文章
python flask web服務(wù)實(shí)現(xiàn)更換默認(rèn)端口和IP的方法
今天小編就為大家分享一篇python flask web服務(wù)實(shí)現(xiàn)更換默認(rèn)端口和IP的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-07-07如何關(guān)掉pycharm中的python console(圖解)
本文通過圖文并茂的形式給大家介紹了如何關(guān)掉pycharm中的python console,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-10-10Python深入學(xué)習(xí)之對(duì)象的屬性
這篇文章主要介紹了Python深入學(xué)習(xí)之對(duì)象的屬性,本文從較深的層次講解對(duì)象屬性的內(nèi)部運(yùn)行方式,需要的朋友可以參考下2014-08-08三步解決python PermissionError: [WinError 5]拒絕訪問的情況
這篇文章主要介紹了三步解決python PermissionError: [WinError 5]拒絕訪問的情況,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-04-04matplotlib實(shí)現(xiàn)自定義散點(diǎn)形狀marker的3種方法
本文主要介紹了matplotlib實(shí)現(xiàn)自定義散點(diǎn)形狀marker的3種方法,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-10-10Python學(xué)習(xí)筆記基本數(shù)據(jù)結(jié)構(gòu)之序列類型list tuple range用法分析
這篇文章主要介紹了Python學(xué)習(xí)筆記基本數(shù)據(jù)結(jié)構(gòu)之序列類型list tuple range用法,結(jié)合具體實(shí)例形式分析了Python序列類型list tuple range基本概念、定義與使用技巧,需要的朋友可以參考下2019-06-06