nodejs實現(xiàn)爬取網(wǎng)站圖片功能
通過實例給大家講解nodejs實現(xiàn)爬取網(wǎng)站圖片功能,以下就是全部內(nèi)容:
原理:
爬蟲是最明顯的IO密集型應用場景,顯然用node,使得I/O等待開銷小數(shù)據(jù)挖掘比較方便
借助express模塊來搭建node服務
并使用request模塊獲取目標頁面的html代碼
下載cheerio模塊對html代碼做處理(cheerio類似jQuery的語法,所以好用又方便)
環(huán)境配置:
npm install express request cheerio --save
(1)引入各個模塊
var http = require('http');
var request = require('request);
var cheerio = require('cheerio');
var fs = require('fs'); //用來操作文件
var url = 'https://movie.douban.com/cinema/nowplaying/beijing/' //定義要爬的頁面
(2)發(fā)送請求
http.get(function(res){
var html = '';
var titles = [];
res.setEncoding('utf-8') //防止中文亂碼
res.on('data',function(chunk){
html += chrunk; //監(jiān)聽data事件 每次取一塊數(shù)據(jù)
})
res.on('end',function(){
var $ = cheerio.load(html); //獲取數(shù)據(jù)完成后,解析html
//將獲取的圖片存到images文件夾中
$('.mod-bd img').each(function(index, item){
//獲取圖片屬性
var imgName = $(this).parent().next().text().trimg()
var imgfile = imgName + '.jpeg';
var imgSrc = $(this).attr('src')
//采用request模塊,向服務器發(fā)起請求 獲取圖片資源
request.head(imgSrc, function(error, res,body){
if(error){
console.log('失敗了')
}
});
//通過管道的方式用fs模塊將圖片寫到本地的images文件下
request(imgSrc).pipe.(fs.createWriteStream('./images/' + imgfile));
})
})
})
相關(guān)文章
node.JS的crypto加密模塊使用方法詳解(MD5,AES,Hmac,Diffie-Hellman加密)
本文將詳細介紹node.JS的加密模塊crypto實現(xiàn)MD5,AES,Hmac,Diffie-Hellman加密的詳解方法,需要的朋友可以參考下2020-02-02
輕松創(chuàng)建nodejs服務器(5):事件處理程序
這篇文章主要介紹了輕松創(chuàng)建nodejs服務器(5):事件處理程序,本系列文章將一步一步創(chuàng)建一個完整的nodejs服務器,需要的朋友可以參考下2014-12-12
手把手教你VSCode配置JavaScript基于Node.js的調(diào)試環(huán)境
最近在補數(shù)據(jù)結(jié)構(gòu),在用VScode調(diào)試js代碼文件結(jié)果怎么都不行,這篇文章主要給大家介紹了關(guān)于VSCode配置JavaScript基于Node.js的調(diào)試環(huán)境的相關(guān)資料,需要的朋友可以參考下2022-12-12
關(guān)于npm主版本升級及其相關(guān)知識點總結(jié)
npm是Node.js默認的包管理器,以javascript?編寫的軟件包管理系統(tǒng)用于分享和使用代碼,下面這篇文章主要給大家介紹了關(guān)于npm主版本升級及其相關(guān)知識點總結(jié)的相關(guān)資料,需要的朋友可以參考下2022-12-12
Node.js中文件系統(tǒng)fs模塊的使用及常用接口
fs是filesystem的縮寫,該模塊提供本地文件的讀寫能力,基本上是POSIX文件操作命令的簡單包裝。這篇文章主要介紹了Node.js中的文件系統(tǒng)fs模塊的使用,需要的朋友可以參考下2020-03-03

