基于node.js實現爬蟲的講解
更新時間:2019年02月18日 16:49:09 作者:Inside_Zhang
今天小編就為大家分享一篇關于基于node.js實現爬蟲的講解,小編覺得內容挺不錯的,現在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
1. cheerio 與 request
- request:模擬客戶端行為,對頁面進行請求
- cheerio:對服務器端返回的頁面進行解析;
var cheerio = require('cheerio');
var request = require('request');
var startUrl = 'http://www.baidu.com'
request(startUrl, function(err, response) {
if (err) {
console.log(err);
}
var $ = cheerio.load(response.body);
var title = $('title').text();
console.log(title);
}
2. 認識 cheerio
獲取 element 位置
通過 class 屬性進行匹配:
var $=cheerio.load('<div class="container"></div>');
$('.container')
取其鏈接:<a class="downbtn" href="http://mov.bn.netease.com/mobilev/2013/1/F/G/S8KTEF7FG.mp4" id="M8KTEKR84" target="_blank"></a>
$('a.downbtn').attr('href')
某一頁面下的全部可鏈接:
var url =
var $ = cheerio.load(data);
$("a.downbtn").each(function(i, e) {
console.log($(e).attr("href"));
});
console.log("done");
} else {
console.log("error");
}
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對腳本之家的支持。如果你想了解更多相關內容請查看下面相關鏈接
相關文章
node.js中的http.response.end方法使用說明
這篇文章主要介紹了node.js中的http.response.end方法使用說明,本文介紹了http.response.end的方法說明、語法、接收參數、使用實例和實現源碼,需要的朋友可以參考下2014-12-12

