node.js爬取中關(guān)村的在線(xiàn)電瓶車(chē)信息
背景
學(xué)習(xí)nodejs已經(jīng)有段時(shí)間,網(wǎng)上很多nodejs爬蟲(chóng)的文章,所以著手練習(xí)寫(xiě)一段,最近打算買(mǎi)一輛電瓶車(chē)來(lái)上下班,但又不知道哪個(gè)好,網(wǎng)上是各說(shuō)紛紜啊,于是就想著,干脆用node.js自己寫(xiě)一個(gè)小爬蟲(chóng),來(lái)爬一下中關(guān)村在線(xiàn)里面電瓶車(chē)的信息吧。
簡(jiǎn)介
該demo采用node.js作為爬蟲(chóng),為方便,有些地方使用es6語(yǔ)法,如有不懂,歡迎咨詢(xún)😊
步驟
第一步,引入需要的庫(kù)
var cheerio = require('cheerio'); var fetch = require('node-fetch'); // cheerio 是一個(gè)類(lèi)似瀏覽器端的jQuery,用來(lái)解析HTML的 // fetch 用來(lái)發(fā)送請(qǐng)求
第二步,設(shè)置初始的爬取的入口(我身處杭州,所以地區(qū)選了杭州的🤣)
// 初始url var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc" // 由于每個(gè)a標(biāo)簽下是相對(duì)路徑,故需要一個(gè)根地址來(lái)拼接,如下 var urlRoot = "http://detail.zol.com.cn" // 存放所有url,之所以用set,是為了防止有相同的而重復(fù)爬去 var urls = new Set() // 存儲(chǔ)所有數(shù)據(jù) var data = []
至此,我們的準(zhǔn)備部分結(jié)束了😅,接下來(lái),開(kāi)始表演了
分析網(wǎng)頁(yè),思考爬取的方式
每行4款,每頁(yè)是48款,一共16頁(yè)
思路:
- 每次獲取當(dāng)前頁(yè)48個(gè)鏈接,并點(diǎn)進(jìn)去之后,拿到該電瓶車(chē)的名稱(chēng)和價(jià)格(其他信息獲取方式一樣,自行改就好😂)
- 第一頁(yè)的全部完成之后,翻到下一頁(yè),繼續(xù)爬,直到最后一頁(yè)結(jié)束
首先我們定義一個(gè)函數(shù)如下
// 這是得到每個(gè)頁(yè)面的48個(gè)鏈接,并開(kāi)始發(fā)送請(qǐng)求 function ad(arg){ // 參數(shù) arg 先不管 // 本地化一下需要爬取的鏈接 let url2 = arg || url; // 請(qǐng)求第一頁(yè)該網(wǎng)頁(yè),拿到數(shù)據(jù)之后,復(fù)制給 app var app = await fetch(url2).then(res=>res.text()) // 然后假裝用jQuery解析了 var $ = cheerio.load(app) // 獲取當(dāng)前頁(yè)所有電瓶車(chē)的a標(biāo)簽 var ele = $("#J_PicMode a.pic") // 存放已經(jīng)爬取過(guò)的url,防止重復(fù)爬取 var old_urls = [] var urlapp = [] //拿到所有a標(biāo)簽地址之后,存在數(shù)組里面,等會(huì)兒要開(kāi)始爬的 for (let i = 0; i < ele.length; i++) { old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text())) } // 用把URL一塊丟給promise處理 urlapp = await Promise.all(old_urls) // 處理完成之后,循環(huán)加入jQuery😂 for (let i = 0; i < urlapp.length; i++) { let $2 = cheerio.load(urlapp[i],{decodeEntities: false}) data.push({ name:$2(".product-model__name").text(), price:$2(".price-type").text() }) } // 至此,一頁(yè)的數(shù)據(jù)就爬完了 // console.log(data); // 然后開(kāi)始爬取下一頁(yè) var nextURL = $(".next").attr('href') // 判斷當(dāng)前頁(yè)是不是最后一頁(yè) if (nextURL){ let next = await fetch(urlRoot+nextURL).then(res=>res.text()) // 獲取下一頁(yè)的標(biāo)簽,拿到地址,走你 ad(urlRoot+nextURL) } return data } ad()
完整代碼如下
var cheerio = require('cheerio'); var fetch = require('node-fetch'); var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc" var urlRoot = "http://detail.zol.com.cn" // var url = "http://localhost:3222/app1" var urls = new Set() var data = [] async function ad(arg){ let url2 = arg || url; var app = await fetch(url2).then(res=>res.text()) var $ = cheerio.load(app) var ele = $("#J_PicMode a.pic") var old_urls = [] var urlapp = [] for (let i = 0; i < ele.length; i++) { old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text())) } urlapp = await Promise.all(old_urls) for (let i = 0; i < urlapp.length; i++) { let $2 = cheerio.load(urlapp[i],{decodeEntities: false}) data.push({ name:$2(".product-model__name").text(), price:$2(".price-type").text() }) } var nextURL = $(".next").attr('href') if (nextURL){ let next = await fetch(urlRoot+nextURL).then(res=>res.text()) ad(urlRoot+nextURL) } return data } ad()
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
相關(guān)文章
Node.js創(chuàng)建Web、TCP服務(wù)器
這篇文章主要介紹了用Node.js創(chuàng)建Web服務(wù)器和TCP服務(wù)器的方法和處理技巧,需要的讀者們學(xué)習(xí)一下吧。2017-12-12nodeJS中關(guān)于path.resolve()的用法解析
這篇文章主要介紹了nodeJS中關(guān)于path.resolve()的用法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-06-06nodejs文件實(shí)現(xiàn)打包成exe, 并設(shè)置開(kāi)機(jī)自啟動(dòng)的方法詳解(沒(méi)有黑窗口)
這篇文章主要介紹了nodejs文件實(shí)現(xiàn)打包成exe, 并設(shè)置開(kāi)機(jī)自啟動(dòng)的方法,結(jié)合實(shí)例形式分析了node.js使用pkg包實(shí)現(xiàn)生成exe可執(zhí)行文件的相關(guān)操作技巧,需要的朋友可以參考下2023-05-05詳解nodeJs文件系統(tǒng)(fs)與流(stream)
這篇文章主要介紹了詳解nodeJs文件系統(tǒng)(fs)與流(stream),小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-01-01Nodejs監(jiān)聽(tīng)日志文件的變化的過(guò)程解析
最近有在做日志文件的分析,其中有一個(gè)需求:A服務(wù)器項(xiàng)目需要用Nodejs監(jiān)聽(tīng)日志文件的變化,當(dāng)項(xiàng)目產(chǎn)生了新的日志信息,將新的部分通過(guò)socket傳輸?shù)紹服務(wù)器項(xiàng)目,本文重點(diǎn)給大家介紹Nodejs監(jiān)聽(tīng)日志文件的變化的相關(guān)知識(shí),一起看看吧2019-08-08Node.js開(kāi)發(fā)靜態(tài)資源服務(wù)器
這篇文章主要為大家介紹了Node.js開(kāi)發(fā)靜態(tài)資源服務(wù)器示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-08-08使用nodejs?+?koa?+?typescript?集成和自動(dòng)重啟的問(wèn)題
這篇文章主要介紹了nodejs?+?koa?+?typescript?集成和自動(dòng)重啟,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-12-12