Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單
一、項(xiàng)目需求
爬取排行榜小說的作者,書名,分類以及完結(jié)或連載
二、項(xiàng)目分析
目標(biāo)url:“https://www.qidian.com/rank/hotsales?style=1&page=1”
通過控制臺(tái)搜索發(fā)現(xiàn)相應(yīng)信息均存在于html靜態(tài)網(wǎng)頁(yè)中,所以此次爬蟲難度較低。
通過控制臺(tái)觀察發(fā)現(xiàn),需要的內(nèi)容都在一個(gè)個(gè)li列表中,每一個(gè)列表代表一本書的內(nèi)容。
在li中找到所需的內(nèi)容
找到第兩頁(yè)的url
“https://www.qidian.com/rank/hotsales?style=1&page=1”
“https://www.qidian.com/rank/hotsales?style=1&page=2”
對(duì)比找到頁(yè)數(shù)變化
開始編寫scrapy程序。
三、程序編寫
創(chuàng)建項(xiàng)目太簡(jiǎn)單,不說了
1.編寫item(數(shù)據(jù)存儲(chǔ))
import scrapy class QidianHotItem(scrapy.Item): name = scrapy.Field() #名稱 author = scrapy.Field() #作者 type = scrapy.Field() #類型 form= scrapy.Field() #是否完載
2.編寫spider(數(shù)據(jù)抓?。ê诵拇a))
#coding:utf-8 from scrapy import Request from scrapy.spiders import Spider from ..items import QidianHotItem #導(dǎo)入下需要的庫(kù) class HotSalesSpider(Spider):#設(shè)置spider的類 name = "hot" #爬蟲的名稱 qidian_header={"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"} #設(shè)置header current_page = 1 #爬蟲起始頁(yè) def start_requests(self): #重寫第一次請(qǐng)求 url="https://www.qidian.com/rank/hotsales?style=1&page=1" yield Request(url,headers=self.qidian_header,callback=self.hot_parse) #Request發(fā)起鏈接請(qǐng)求 #url:目標(biāo)url #header:設(shè)置頭部(模擬瀏覽器) #callback:設(shè)置頁(yè)面抓起方式(空默認(rèn)為parse) def hot_parse(self, response):#數(shù)據(jù)解析 #xpath定位 list_selector=response.xpath("http://div[@class='book-mid-info']") #獲取所有小說 for one_selector in list_selector: #獲取小說信息 name=one_selector.xpath("h4/a/text()").extract()[0] #獲取作者 author=one_selector.xpath("p[1]/a[1]/text()").extract()[0] #獲取類型 type=one_selector.xpath("p[1]/a[2]/text()").extract()[0] # 獲取形式 form=one_selector.xpath("p[1]/span/text()").extract()[0] item = QidianHotItem() #生產(chǎn)存儲(chǔ)器,進(jìn)行信息存儲(chǔ) item['name'] = name item['author'] = author item['type'] = type item['form'] = form yield item #送出信息 # 獲取下一頁(yè)URL,并生成一個(gè)request請(qǐng)求 self.current_page += 1 if self.current_page <= 10:#爬取前10頁(yè) next_url = "https://www.qidian.com/rank/hotsales?style=1&page="+str(self.current_page) yield Request(url=next_url,headers=self.qidian_header,callback=self.hot_parse) def css_parse(self,response): #css定位 list_selector = response.css("[class='book-mid-info']") for one_selector in list_selector: # 獲取小說信息 name = one_selector.css("h4>a::text").extract()[0] # 獲取作者 author = one_selector.css(".author a::text").extract()[0] # 獲取類型 type = one_selector.css(".author a::text").extract()[1] # 獲取形式 form = one_selector.css(".author span::text").extract()[0] # 定義字典 item=QidianHotItem() item['name']=name item['author'] = author item['type'] = type item['form'] = form yield item
3.start.py(代替命令行)
在爬蟲項(xiàng)目文件夾下創(chuàng)建start.py。
from scrapy import cmdline #導(dǎo)入cmd命令窗口 cmdline.execute("scrapy crawl hot -o hot.csv" .split()) #運(yùn)行爬蟲并生產(chǎn)csv文件
出現(xiàn)類似的過程代表爬取成功。
hot.csv
總結(jié)
本次爬蟲內(nèi)容還是十分簡(jiǎn)單的因?yàn)橹挥昧藄pider和item,這幾乎是所有scrapy都必須調(diào)用的文件,后期還會(huì)有middlewarse.py,pipelines.py,setting.py需要編寫和配置,以及從javascript和json中提取數(shù)據(jù),難度較大。
到此這篇關(guān)于Python scrapy爬取起點(diǎn)中文網(wǎng)小說榜單的文章就介紹到這了,更多相關(guān)Python爬取起點(diǎn)中文網(wǎng)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python3+selenium獲取頁(yè)面加載的所有靜態(tài)資源文件鏈接操作
這篇文章主要介紹了python3+selenium獲取頁(yè)面加載的所有靜態(tài)資源文件鏈接操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-05-05Django錯(cuò)誤:TypeError at / ''bool'' object is not callable解決
這篇文章主要介紹了Django 錯(cuò)誤:TypeError at / 'bool' object is not callable解決,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08Python學(xué)習(xí)之shell腳本的使用詳解
這篇文章主要為大家分析一個(gè)python庫(kù)–sh(系統(tǒng)調(diào)用),主要內(nèi)容包括其使用實(shí)例、應(yīng)用技巧、基本知識(shí)點(diǎn)總結(jié)和需要注意事項(xiàng),具有一定的參考價(jià)值,需要的朋友可以參考一下2023-04-04Python + selenium + crontab實(shí)現(xiàn)每日定時(shí)自動(dòng)打卡功能
這篇文章主要介紹了Python + selenium + crontab實(shí)現(xiàn)每日定時(shí)自動(dòng)打卡功能,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-03-038個(gè)Python必備的PyCharm插件(附下載地址)
Python是一種廣泛使用的編程語(yǔ)言,PyCharm是最受歡迎的Python IDE之一,本文就來介紹一下8個(gè)Python必備的PyCharm插件,具有一定的參考價(jià)值,感興趣的可以了解一下2024-01-01Python編程實(shí)戰(zhàn)之Oracle數(shù)據(jù)庫(kù)操作示例
這篇文章主要介紹了Python編程實(shí)戰(zhàn)之Oracle數(shù)據(jù)庫(kù)操作,結(jié)合具體實(shí)例形式分析了Python的Oracle數(shù)據(jù)庫(kù)模塊cx_Oracle包安裝、Oracle連接及操作技巧,需要的朋友可以參考下2017-06-06python使用PyGame實(shí)現(xiàn)打磚塊游戲
打磚塊也是一個(gè)非常經(jīng)典的小游戲,玩法大致如下,用一個(gè)小車接一個(gè)小球,然后反射小球,使之打在磚塊上,當(dāng)小球碰到磚塊之后,則磚塊被消掉,邏輯十分清晰,本文將給大家介紹了python使用PyGame實(shí)現(xiàn)打磚塊游戲,文中有詳細(xì)的代碼示例供大家參考,需要的朋友可以參考下2023-12-12python用selenium打開chrome瀏覽器保持登錄方式
大家好,本篇文章主要講的是python用selenium打開chrome瀏覽器保持登錄方式,感興趣的同學(xué)趕快來看一看吧,對(duì)你有幫助的話記得收藏一下2022-02-02基于python使用Pillow做動(dòng)態(tài)圖在圖中生成二維碼以及圖像處理
這篇文章主要介紹了基于python使用Pillow做動(dòng)態(tài)圖在圖中生成二維碼以及圖像處理,分享pillow的一些簡(jiǎn)單使用,喜歡的話大家可以參考文章內(nèi)容下去試試奧2022-02-02在Python的Django框架中更新數(shù)據(jù)庫(kù)數(shù)據(jù)的方法
這篇文章主要介紹了在Python的Django框架中更新數(shù)據(jù)庫(kù)數(shù)據(jù),對(duì)此Django框架中提供了便利的插入和更新方法,需要的朋友可以參考下2015-07-07