nodeJS實現(xiàn)簡單網(wǎng)頁爬蟲功能的實例(分享)
本文將使用nodeJS實現(xiàn)一個簡單的網(wǎng)頁爬蟲功能
網(wǎng)頁源碼
使用http.get()方法獲取網(wǎng)頁源碼,以hao123網(wǎng)站的頭條頁面為例
http://tuijian.hao123.com/hotrank
var http = require('http');
http.get('http://tuijian.hao123.com/hotrank',function(res){
var data = '';
res.on('data',function(chunk){
data += chunk;
});
res.on('end',function(){
console.log(data);
})
});獲得的結(jié)果如下所示:
篩選數(shù)據(jù)
以網(wǎng)頁中的綜藝熱點部分

相關(guān)源代碼如下

通過分析可知,‘綜藝’模塊與其他模塊都位于<div class="top-wrap">中,其中,綜藝模塊的內(nèi)層div的monkey='zy',綜藝模塊的10條綜藝節(jié)目的信息都位于<div class="poinr clearfix">中,綜藝節(jié)目的名稱位于<span class="point-title">中
cheerio
我們怎么從源代碼中獲取到有用的數(shù)據(jù)呢?首先,nodeJS不支持document對象。如果要使用笨辦法,只能使用正則表達式來處理
cheerio 是nodejs特別為服務(wù)端定制的,能夠快速靈活的對JQuery核心進行實現(xiàn)。它工作于DOM模型上,且解析、操作、呈送都很高效
【安裝】

【使用】
它的使用方法和jQuery相當(dāng)類似,上手非常容易。以獲取綜藝熱度前10名的節(jié)目名稱為例
var http = require('http');
var cheerio = require('cheerio');
http.get('http://tuijian.hao123.com/hotrank',function(res){
var data = '';
res.on('data',function(chunk){
data += chunk;
});
res.on('end',function(){
filter(data);
})
});
function filter(data){
//保存搜索量前10的綜藝節(jié)目標(biāo)題
var result = [];
//將頁面源代碼轉(zhuǎn)換為$對象
var $ = cheerio.load(data);
//查找每個綜藝節(jié)目標(biāo)題的外層div
var temp_arr = $('[monkey = "zy"]').find('.point-bd').find('.point-title');
//將綜藝節(jié)目標(biāo)題依次保存到結(jié)果數(shù)組中
temp_arr.each(function(index,item){
result.push($(item).text());
})
//[ '變形計','來吧冠軍','拜托了冰箱','昆侖決','天生是優(yōu)我','姐姐好餓','腦力男人時代','奔跑吧兄弟','我想和你唱','玫瑰之旅' ]
console.log(result);
}爬蟲代碼
下面將hao123網(wǎng)頁中的'實時熱點'、'今日熱點'、'民生熱點'、'電影'、'電視劇'、'綜藝'這6部分的排名爬下來,分別到對象名為'result'中的數(shù)組中,分別命令為'ss'、'jr'、'ms'、'dy'、'dsj'、'zy'

【代碼如下】
var http = require('http');
var cheerio = require('cheerio');
http.get('http://tuijian.hao123.com/hotrank',function(res){
var data = '';
res.on('data',function(chunk){
data += chunk;
});
res.on('end',function(){
filter(data);
})
});
function filter(data){
//保存各部分搜索量前10的名稱
//對象名為榜單名,如'實時熱點'
//對象內(nèi)容為10個標(biāo)題名稱組成的數(shù)組
var result = {};
//將頁面源代碼轉(zhuǎn)換為$對象
var $ = cheerio.load(data);
//查找'實時熱點'、'今日熱點'、'民生熱點'、'電影'、'電視劇'、'綜藝'這6個榜單所在的div
var temp_div = $('.top-wrap');
//保存榜單名稱
var temp_title = [];
temp_div.each(function(index,item){
//查找榜單名,并保存到temp_title文件夾中
temp_title.push($(item).find('h2').text());
//查找每類下每個標(biāo)題的外層div
var temp_arr = $(item).find('.point-bd').find('.point-title');
//將result下的每個榜單初始化為一個數(shù)組
var innerResult = result[temp_title[index]] = [];
//將節(jié)目標(biāo)題依次保存到相應(yīng)榜單的數(shù)組中
temp_arr.each(function(_index,_item){
innerResult.push($(_item).text())
})
})
console.log(result);
}【結(jié)果如下】
以上這篇nodeJS實現(xiàn)簡單網(wǎng)頁爬蟲功能的實例(分享)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
node版本太高導(dǎo)致項目跑不起來的解決辦法(windows)
換了臺電腦后,安裝node,一切完美,發(fā)現(xiàn)其中有一個uniapp的小程序項目跑不起來,感覺是node版本太高導(dǎo)致的,所以只能重新安裝低版本的node,本文給大家介紹了node版本太高的解決辦法,需要的朋友可以參考下2023-10-10
node.js中ws模塊創(chuàng)建服務(wù)端和客戶端,網(wǎng)頁WebSocket客戶端
今天小編就為大家分享一篇關(guān)于node.js中ws模塊創(chuàng)建服務(wù)端和客戶端,網(wǎng)頁WebSocket客戶端,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧2019-03-03
MQTT Client實現(xiàn)消息推送功能的方法詳解
這篇文章主要介紹了MQTT Client實現(xiàn)消息推送功能的方法,結(jié)合實例形式詳細分析了MQTT Client實現(xiàn)消息推送的基本原理、實現(xiàn)方法與相關(guān)操作注意事項,需要的朋友可以參考下2023-05-05
NodeJS如何優(yōu)雅的實現(xiàn)Sleep休眠
這篇文章主要介紹了NodeJS如何優(yōu)雅的實現(xiàn)Sleep休眠問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-09-09
nodejs使用redis作為緩存介質(zhì)實現(xiàn)的封裝緩存類示例
這篇文章主要介紹了nodejs使用redis作為緩存介質(zhì)實現(xiàn)的封裝緩存類,涉及nodejs操作redis進行緩存設(shè)置相關(guān)操作技巧,需要的朋友可以參考下2018-02-02

