淺談Node.js爬蟲之網(wǎng)頁請求模塊
本文介紹了Node.js爬蟲之網(wǎng)頁請求模塊,分享給大家,具體如下:
注:如您下載最新的nodegrass版本,由于部分方法已經(jīng)更新,本文的例子已經(jīng)不再適應,詳細請查看開源地址中的例子。
一、為什么我要寫這樣一個模塊?
源于筆者想使用Node.js寫一個爬蟲,雖然Node.js官方API提供的請求遠程資源的方法已經(jīng)非常簡便,具體參考
http://nodejs.org/api/http.html 其中對于Http的請求提供了,http.get(options, callback)和http.request(options, callback)兩個方法,
看方法便知,get方法用于get方式的請求,而request方法提供更多的參數(shù),例如其它請求方式,請求主機的端口等等。對于Https的請求于Http類似。一個最簡單的例子:
var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
console.log("statusCode: ", res.statusCode);
console.log("headers: ", res.headers);
res.on('data', function(d) {
process.stdout.write(d);
});
}).on('error', function(e) {
console.error(e);
});
對于以上代碼,我們無非就是想請求遠程主機,得到響應信息,例如響應狀態(tài),響應頭,響應主體內(nèi)容。其中get方法的第二個參數(shù)是一個回調(diào)函數(shù),我們異步的獲取響應信息,然后,在該回調(diào)函數(shù)中,res對象又監(jiān)聽data,on方法中第二個參數(shù)又是一個回調(diào),而你得到d(你請求到的響應信息)后,很可能在對它進行操作的時候再次引入回調(diào),一層層下去,最后就暈了。。。對于異步方式的編程,對于一些習慣同步方式寫代碼的同學是非常糾結的,當然國內(nèi)外已經(jīng)對此提供了一些非常優(yōu)秀的同步類庫,例如老趙的Wind.js......好像有點扯遠了。其實,我們調(diào)用get最終要得到的無非就是響應信息,而不關心res.on這樣的監(jiān)聽過程,因為太懶惰。不想每次都res.on('data',func),于是誕生了今天我要介紹的nodegrass。
二、nodegrass請求資源,像Jquery的$.get(url,func)
一個最簡單的例子:
var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
console.log(status);
console.log(headers);
console.log(data);
},'gbk').on('error', function(e) {
console.log("Got error: " + e.message);
});
咋一看,和官方原來的get沒啥區(qū)別,確實差不多=。=!只不過少了一層res.on('data',func)的事件監(jiān)聽回調(diào)而已。不管你信不信,反正我看上去感覺舒服多了,第二個參數(shù)同樣是一個回調(diào)函數(shù),其中的參數(shù)data是響應主體內(nèi)容,status是響應狀態(tài),headers是響應頭。得到響應內(nèi)容,我們就可以對得到的資源提取任何我們感興趣的信息啦。當然這個例子中,只是簡單的打印的控制臺而已。第三個參數(shù)是字符編碼,目前Node.js不支持gbk,這里nodegrass內(nèi)部引用了iconv-lite進行了處理,所以,如果你請求的網(wǎng)頁編碼是gbk的,例如百度。只需加上這個參數(shù)就行了。
那么對于https的請求呢?如果是官方api,你得引入https模塊,但是請求的get方法等和http類似,于是nodegrass順便把他們整合在一塊了??蠢樱?/p>
var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
console.log(status);
console.log(headers);
console.log(data);
},'utf8').on('error', function(e) {
console.log("Got error: " + e.message);
});
nodegrass會根據(jù)url自動識別是http還是https,當然你的url必須得有,不能只寫www.baidu.com/而需要http://www.baidu.com/。
對于post的請求,nodegrass提供了post方法,看例子:
var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
var accessToken = JSON.parse(data);
var err = null;
if(accessToken.error){
err = accessToken;
}
callback(err,accessToken);
},headers,options,'utf8');
以上是新浪微博Auth2.0請求accessToken的一部分,其中使用nodegrass的post請求access_token的api。
post方法相比get方法多提供了headers請求頭參數(shù),options--post的數(shù)據(jù),它們都是對象字面量的類型:
var headers = {
'Content-Type': 'application/x-www-form-urlencoded',
'Content-Length':data.length
};
var options = {
client_id : 'id',
client_secret : 'cs',
grant_type : 'authorization_code',
redirect_uri : 'your callback url',
code: acode
};
三、利用nodegrass做代理服務器?……**
看例子:
var ng = require('nodegrass'),
http=require('http'),
url=require('url');
http.createServer(function(req,res){
var pathname = url.parse(req.url).pathname;
if(pathname === '/'){
ng.get('http://www.cnblogs.com/',function(data){
res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
res.write(data+"\n");
res.end();
},'utf8');
}
}).listen(8088);
console.log('server listening 8088...');
就這么簡單,當然代理服務器還有復雜的多,這個不算是,但至少你訪問本地8088端口,看到的是不是博客園的頁面呢?
nodegrass的開源地址:https://github.com/scottkiss/nodegrass
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
npm安裝sharp出現(xiàn)的問題詳解(安裝失敗的問題及解決)
這篇文章主要給大家介紹了關于npm安裝sharp出現(xiàn)的問題(安裝失敗的問題及解決)的相關資料,sharp包是基于node.js的高性能圖片處理器,文中通過代碼介紹的非常詳細,需要的朋友可以參考下2023-11-11
Windows7系統(tǒng)下如何安裝nodejs16以上版本
這篇文章主要給大家介紹了關于Windows7系統(tǒng)下如何安裝nodejs16以上版本的相關資料,很多時候node.js的版本存在兼容,文中通過圖文介紹的非常詳細,需要的朋友可以參考下2023-07-07
kafka調(diào)試中遇到Connection to node -1 could not be established. Br
這篇文章主要介紹了kafka調(diào)試中遇到Connection to node -1 could not be established. Broker may not be available的解決方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-09-09
手把手教你把nodejs部署到linux上跑出hello world
本篇文章主要介紹了手把手教你把nodejs部署到linux上跑出hello world,非常具有實用價值,需要的朋友可以參考下2017-06-06

