CSS選擇器實現(xiàn)字段解析
發(fā)布時間:2018-01-31 16:21:05 作者:佚名
我要評論

這篇文章主要介紹了CSS選擇器實現(xiàn)字段解析的相關(guān)資料,需要的朋友可以參考下
根據(jù)上面所學(xué)的CSS基礎(chǔ)語法知識,現(xiàn)在來實現(xiàn)字段的解析。首先還是解析標(biāo)題。打開網(wǎng)頁開發(fā)者工具,找到標(biāo)題所對應(yīng)的源代碼。
發(fā)現(xiàn)是在div class="entry-header"
下面的h1節(jié)點中,于是打開scrapy shell 進(jìn)行調(diào)試
但是我不想要<h1>這種標(biāo)簽該咋辦,這時候就要使用CSS選擇器中的偽類方法。如下所示。
注意的是兩個冒號。使用CSS選擇器真的很方便。同理我用CSS實現(xiàn)字段解析。代碼如下
# -*- coding: utf-8 -*- import scrapy import re class JobboleSpider(scrapy.Spider): name = 'jobbole' allowed_domains = ['blog.jobbole.com'] start_urls = ['http://blog.jobbole.com/113549/'] def parse(self, response): # title = response.xpath('//div[@class = "entry-header"]/h1/text()').extract()[0] # create_date = response.xpath("//p[@class = 'entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·","").strip() # praise_numbers = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0] # fav_nums = response.xpath("//span[contains(@class,'bookmark-btn')]/text()").extract()[0] # match_re = re.match(".*?(\d+).*",fav_nums) # if match_re: # fav_nums = match_re.group(1) # comment_nums = response.xpath("//a[@href='#article-comment']/span").extract()[0] # match_re = re.match(".*?(\d+).*", comment_nums) # if match_re: # comment_nums = match_re.group(1) # content = response.xpath("//div[@class='entry']").extract()[0] #通過CSS選擇器提取字段 title = response.css(".entry-header h1::text").extract()[0] create_date = response.css(".entry-meta-hide-on-mobile::text").extract()[0].strip().replace("·","").strip() praise_numbers = response.css(".vote-post-up h10::text").extract()[0] fav_nums = response.css("span.bookmark-btn::text").extract()[0] match_re = re.match(".*?(\d+).*", fav_nums) if match_re: fav_nums = match_re.group(1) comment_nums = response.css("a[href='#article-comment'] span::text").extract()[0] match_re = re.match(".*?(\d+).*", comment_nums) if match_re: comment_nums = match_re.group(1) content = response.css("div.entry").extract()[0] tags = response.css("p.entry-meta-hide-on-mobile a::text").extract()[0] pass
總結(jié)
以上所述是小編給大家介紹的CSS選擇器實現(xiàn)字段解析,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
相關(guān)文章
- 這篇文章主要介紹了CSS :visited偽類選擇器隱秘往事回憶錄,需要的朋友可以參考下2018-10-12
- dw中css選擇器nthchild怎么使用?Dreamweaver中出現(xiàn)了多個相同的標(biāo)簽,這時候可以使用nth-child()選擇器,下面我們就來看看詳細(xì)的教程,需要的朋友可以參考下2018-06-04
- 這篇文章主要介紹了css選擇器中有小數(shù)點的標(biāo)簽獲取方法,需要的朋友可以參考下2018-03-26
- CSS3 :default 偽類選擇器只能作用在表單元素上,表示默認(rèn)狀態(tài)的表單元素。接下來通過本文給大家介紹CSS3 :default偽類選擇器使用簡介,感興趣的朋友跟隨腳本之家小編一起2018-03-15
- 本文將詳細(xì)介紹CSS選擇器的新用法,感興趣的朋友一起學(xué)習(xí)吧2018-02-02
- 這篇文章主要介紹了CSS中選擇器的權(quán)重值的計算的相關(guān)資料,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-01-23
- Dreamweaver怎么使用css選擇器中的類?Dreamweaver中css選擇器中有很多功能,想要使用其中的類,該怎么使用呢?下面我們就來看看詳細(xì)的教程,需要的朋友可以參考下2018-01-09
詳解CSS3選擇器:nth-child和:nth-of-type之間的差異
本篇文章主要介紹了CSS3選擇器:nth-child和:nth-of-type之間的差異,非常具有實用價值,需要的朋友可以參考下2017-09-18- 本文總結(jié)了30個CSS3選擇器,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-04-13
- 這篇文章主要介紹了css3類選擇器之結(jié)合元素選擇器和多類選擇器用法,非常不錯,具有參考借鑒價值,需要的朋友可以參考下2017-03-09