欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python的爬蟲框架scrapy用21行代碼寫一個(gè)爬蟲

 更新時(shí)間:2017年04月24日 08:34:17   作者:凌霄  
最近在學(xué)習(xí)Python的爬蟲框架scrapy,通過爬取線報(bào)網(wǎng)站后發(fā)現(xiàn)整個(gè)過程還是挺值得學(xué)習(xí)的,所以下面這篇文章主要就給大家介紹了Python的爬蟲框架scrapy利用21行代碼寫一個(gè)爬蟲的相關(guān)資料,需要的朋友可以參考借鑒,下面來一起看看吧。

開發(fā)說明

開發(fā)環(huán)境:Pycharm 2017.1(目前最新)

開發(fā)框架:Scrapy 1.3.3(目前最新)

目標(biāo)

爬取線報(bào)網(wǎng)站,并把內(nèi)容保存到items.json里

頁面分析


根據(jù)上圖我們可以發(fā)現(xiàn)內(nèi)容都在類為post這個(gè)div里

下面放出post的代碼

<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a  rel="external nofollow" title="4月7日 淘金幣淘里程領(lǐng)取京東簽到" rel="bookmark" target="_blank">4月7日 淘金幣淘里程領(lǐng)取京東簽到</a><span>已結(jié)束</span></h2>
<h6>發(fā)布日期: 2017-04-07 | 分類: <a  rel="external nofollow" >虛擬幣</a> | 瀏覽:125177
</h6><div class="intro"><p>淘金幣一鍵領(lǐng)取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【電腦端30金幣】 https://taojinbi.taobao.com/inde ... auto_take=true 【手機(jī)端30金幣】 http://h5.m.taobao...</p></div></div>

實(shí)現(xiàn)方法

1、定義items

class DemoItem(scrapy.Item):
 id = scrapy.Field()
 title = scrapy.Field()
 href = scrapy.Field()
 content = scrapy.Field()

2、新建一個(gè)爬蟲名為test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
 #定義爬蟲的名字和需要爬取的網(wǎng)址
 name = "test"
 allowed_domains = ["www.abckg.com"]
 start_urls = ['http://www.abckg.com/']
 def parse(self, response):
 for resp in response.css('.post'):
  #實(shí)例化item
  item = DemoItem()
  #把獲取到的內(nèi)容保存到item內(nèi)
  item['href'] = resp.css('h2 a::attr(href)').extract()
  item['title'] = resp.css('h2 a::text').extract()
  item['content'] = resp.css('.intro p::text').extract()
  yield item
  
 #下面是多頁面的爬取方法
 urls = response.css('.pageinfo a::attr(href)').extract()
 for url in urls:
  yield Request(url, callback=self.parse)
 categorys = response.css('.menu li a::attr(href)').extract()
 for ct in categorys:
  yield Request(ct, callback=self.parse)

3、修改settings.py,添加以下代碼

FEED_EXPORT_ENCODING = 'utf-8'

#運(yùn)行

打開cmd輸入

scrapy crawl test -o items.json

已知bug

如果多次運(yùn)行該爬蟲,不會(huì)覆蓋原有的內(nèi)容,而是追加數(shù)據(jù)(好像是scrapy的bug)

可拓展內(nèi)容

     1、定時(shí)運(yùn)行爬蟲,當(dāng)檢查到網(wǎng)站更新時(shí)獲取新數(shù)據(jù)并發(fā)郵件通知

     2、檢測數(shù)據(jù)是否重復(fù)

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者使用python能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對(duì)腳本之家的支持。

相關(guān)文章

  • python flask web服務(wù)實(shí)現(xiàn)更換默認(rèn)端口和IP的方法

    python flask web服務(wù)實(shí)現(xiàn)更換默認(rèn)端口和IP的方法

    今天小編就為大家分享一篇python flask web服務(wù)實(shí)現(xiàn)更換默認(rèn)端口和IP的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07
  • 如何關(guān)掉pycharm中的python console(圖解)

    如何關(guān)掉pycharm中的python console(圖解)

    本文通過圖文并茂的形式給大家介紹了如何關(guān)掉pycharm中的python console,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-10-10
  • Python深入學(xué)習(xí)之對(duì)象的屬性

    Python深入學(xué)習(xí)之對(duì)象的屬性

    這篇文章主要介紹了Python深入學(xué)習(xí)之對(duì)象的屬性,本文從較深的層次講解對(duì)象屬性的內(nèi)部運(yùn)行方式,需要的朋友可以參考下
    2014-08-08
  • python中的裝飾器該如何使用

    python中的裝飾器該如何使用

    裝飾器經(jīng)常被用于有切面需求的場景,較為經(jīng)典的有插入日志、性能測試、事務(wù)處理等。裝飾器是解決這類問題的絕佳設(shè)計(jì),有了裝飾器,我們就可以抽離出大量函數(shù)中與函數(shù)功能本身無關(guān)的雷同代碼并繼續(xù)重用。裝飾器的作用就是為已經(jīng)存在的對(duì)象添加額外的功能。
    2021-06-06
  • 三步解決python PermissionError: [WinError 5]拒絕訪問的情況

    三步解決python PermissionError: [WinError 5]拒絕訪問的情況

    這篇文章主要介紹了三步解決python PermissionError: [WinError 5]拒絕訪問的情況,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • matplotlib實(shí)現(xiàn)自定義散點(diǎn)形狀marker的3種方法

    matplotlib實(shí)現(xiàn)自定義散點(diǎn)形狀marker的3種方法

    本文主要介紹了matplotlib實(shí)現(xiàn)自定義散點(diǎn)形狀marker的3種方法,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-10-10
  • Python編寫nmap掃描工具

    Python編寫nmap掃描工具

    NMAP是一款開源的網(wǎng)絡(luò)探測和安全審核的工具,今天我們用python的模擬實(shí)現(xiàn)一個(gè)簡單版本的端口掃描工具,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-07-07
  • python自定義異常類方式

    python自定義異常類方式

    這篇文章主要介紹了python自定義異常類方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • Python學(xué)習(xí)筆記基本數(shù)據(jù)結(jié)構(gòu)之序列類型list tuple range用法分析

    Python學(xué)習(xí)筆記基本數(shù)據(jù)結(jié)構(gòu)之序列類型list tuple range用法分析

    這篇文章主要介紹了Python學(xué)習(xí)筆記基本數(shù)據(jù)結(jié)構(gòu)之序列類型list tuple range用法,結(jié)合具體實(shí)例形式分析了Python序列類型list tuple range基本概念、定義與使用技巧,需要的朋友可以參考下
    2019-06-06
  • YOLOV5超參數(shù)介紹以及優(yōu)化策略

    YOLOV5超參數(shù)介紹以及優(yōu)化策略

    yolov5提供了一種超參數(shù)優(yōu)化的方法,這篇文章主要給大家介紹了關(guān)于YOLOV5超參數(shù)介紹以及優(yōu)化策略的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2022-09-09

最新評(píng)論