欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

node.js爬取中關(guān)村的在線電瓶車信息

 更新時(shí)間:2018年11月13日 09:46:10   作者:八二年的礦泉水  
這篇文章主要給大家介紹了關(guān)于利用node.js如何爬取中關(guān)村的在線電瓶車信息的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用node.js具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

背景

學(xué)習(xí)nodejs已經(jīng)有段時(shí)間,網(wǎng)上很多nodejs爬蟲的文章,所以著手練習(xí)寫一段,最近打算買一輛電瓶車來上下班,但又不知道哪個(gè)好,網(wǎng)上是各說紛紜啊,于是就想著,干脆用node.js自己寫一個(gè)小爬蟲,來爬一下中關(guān)村在線里面電瓶車的信息吧。

簡介

該demo采用node.js作為爬蟲,為方便,有些地方使用es6語法,如有不懂,歡迎咨詢😊

步驟

第一步,引入需要的庫

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一個(gè)類似瀏覽器端的jQuery,用來解析HTML的
// fetch 用來發(fā)送請求

第二步,設(shè)置初始的爬取的入口(我身處杭州,所以地區(qū)選了杭州的🤣)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每個(gè)a標(biāo)簽下是相對路徑,故需要一個(gè)根地址來拼接,如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url,之所以用set,是為了防止有相同的而重復(fù)爬去
var urls = new Set()
// 存儲(chǔ)所有數(shù)據(jù)
var data = [] 

至此,我們的準(zhǔn)備部分結(jié)束了😅,接下來,開始表演了

分析網(wǎng)頁,思考爬取的方式


每行4款,每頁是48款,一共16頁

思路:

  • 每次獲取當(dāng)前頁48個(gè)鏈接,并點(diǎn)進(jìn)去之后,拿到該電瓶車的名稱和價(jià)格(其他信息獲取方式一樣,自行改就好😂)
  • 第一頁的全部完成之后,翻到下一頁,繼續(xù)爬,直到最后一頁結(jié)束

首先我們定義一個(gè)函數(shù)如下

// 這是得到每個(gè)頁面的48個(gè)鏈接,并開始發(fā)送請求

function ad(arg){
// 參數(shù) arg 先不管
// 本地化一下需要爬取的鏈接
let url2 = arg || url;
// 請求第一頁該網(wǎng)頁,拿到數(shù)據(jù)之后,復(fù)制給 app
var app = await fetch(url2).then(res=>res.text())
// 然后假裝用jQuery解析了
var $ = cheerio.load(app)
// 獲取當(dāng)前頁所有電瓶車的a標(biāo)簽
var ele = $("#J_PicMode a.pic")
// 存放已經(jīng)爬取過的url,防止重復(fù)爬取
var old_urls = []
var urlapp = []
//拿到所有a標(biāo)簽地址之后,存在數(shù)組里面,等會(huì)兒要開始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一塊丟給promise處理
urlapp = await Promise.all(old_urls)
// 處理完成之后,循環(huán)加入jQuery😂
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此,一頁的數(shù)據(jù)就爬完了
// console.log(data);

// 然后開始爬取下一頁
var nextURL = $(".next").attr('href')
// 判斷當(dāng)前頁是不是最后一頁
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 獲取下一頁的標(biāo)簽,拿到地址,走你
ad(urlRoot+nextURL)
}
return data
}
ad()

完整代碼如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = [] 
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}

var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。

相關(guān)文章

  • Node.js創(chuàng)建Web、TCP服務(wù)器

    Node.js創(chuàng)建Web、TCP服務(wù)器

    這篇文章主要介紹了用Node.js創(chuàng)建Web服務(wù)器和TCP服務(wù)器的方法和處理技巧,需要的讀者們學(xué)習(xí)一下吧。
    2017-12-12
  • nodeJS中關(guān)于path.resolve()的用法解析

    nodeJS中關(guān)于path.resolve()的用法解析

    這篇文章主要介紹了nodeJS中關(guān)于path.resolve()的用法,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-06-06
  • nodejs文件實(shí)現(xiàn)打包成exe, 并設(shè)置開機(jī)自啟動(dòng)的方法詳解(沒有黑窗口)

    nodejs文件實(shí)現(xiàn)打包成exe, 并設(shè)置開機(jī)自啟動(dòng)的方法詳解(沒有黑窗口)

    這篇文章主要介紹了nodejs文件實(shí)現(xiàn)打包成exe, 并設(shè)置開機(jī)自啟動(dòng)的方法,結(jié)合實(shí)例形式分析了node.js使用pkg包實(shí)現(xiàn)生成exe可執(zhí)行文件的相關(guān)操作技巧,需要的朋友可以參考下
    2023-05-05
  • 詳解nodeJs文件系統(tǒng)(fs)與流(stream)

    詳解nodeJs文件系統(tǒng)(fs)與流(stream)

    這篇文章主要介紹了詳解nodeJs文件系統(tǒng)(fs)與流(stream),小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2018-01-01
  • Nodejs監(jiān)聽日志文件的變化的過程解析

    Nodejs監(jiān)聽日志文件的變化的過程解析

    最近有在做日志文件的分析,其中有一個(gè)需求:A服務(wù)器項(xiàng)目需要用Nodejs監(jiān)聽日志文件的變化,當(dāng)項(xiàng)目產(chǎn)生了新的日志信息,將新的部分通過socket傳輸?shù)紹服務(wù)器項(xiàng)目,本文重點(diǎn)給大家介紹Nodejs監(jiān)聽日志文件的變化的相關(guān)知識(shí),一起看看吧
    2019-08-08
  • 解決node-sass偶爾安裝失敗的方法小結(jié)

    解決node-sass偶爾安裝失敗的方法小結(jié)

    這篇文章主要介紹了解決node-sass偶爾安裝失敗的方法小結(jié),小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2018-12-12
  • Node中的Events模塊介紹及應(yīng)用

    Node中的Events模塊介紹及應(yīng)用

    events模塊是node內(nèi)置的核心模塊 這個(gè)模塊是node中一個(gè)非常重要的核心模塊,node中所有能觸發(fā)事件的對象都是這個(gè)類的實(shí)例
    2022-08-08
  • Node.js開發(fā)靜態(tài)資源服務(wù)器

    Node.js開發(fā)靜態(tài)資源服務(wù)器

    這篇文章主要為大家介紹了Node.js開發(fā)靜態(tài)資源服務(wù)器示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-08-08
  • 使用nodejs?+?koa?+?typescript?集成和自動(dòng)重啟的問題

    使用nodejs?+?koa?+?typescript?集成和自動(dòng)重啟的問題

    這篇文章主要介紹了nodejs?+?koa?+?typescript?集成和自動(dòng)重啟,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-12-12
  • Nodejs如何解決跨域(CORS)

    Nodejs如何解決跨域(CORS)

    這篇文章主要介紹了Nodejs如何解決跨域(CORS)問題,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-01-01

最新評論