欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

node+experss實現爬取電影天堂爬蟲

 更新時間:2016年11月20日 09:30:20   作者:xianyulaodi  
本文給大家分享的是node+experss制作爬蟲的第二篇,我們來爬取電影天堂最新更新的電影迅雷下載鏈接,有需要的小伙伴可以參考下

上周寫了一個node+experss的爬蟲小入門。今天繼續(xù)來學習一下,寫一個爬蟲2.0版本。

這次我們不再爬博客園了,咋玩點新的,爬爬電影天堂。因為每個周末都會在電影天堂下載一部電影來看看。

talk is cheap,show me the code!

抓取頁面分析

我們的目標:

1、抓取電影天堂首頁,獲取左側最新電影的169條鏈接

2、抓取169部新電影的迅雷下載鏈接,并且并發(fā)異步抓取。

具體分析如下:

1、我們不需要抓取迅雷的所有東西,只需要下載最新發(fā)布的電影即可,比如下面的左側欄。一共有170個,除去第一個(因為第一個里面有200部電影),一共有169部電影。

2、除了抓取首頁的東西,我們還要抓取點進去之后,每部電影的迅雷下載鏈接

環(huán)境搭建

1、需要的東西:node環(huán)境、express、cherrio 這三個都是上一篇文章有介紹的,所以這里不再做介紹:點擊查看

2、需要安裝的新東西:

superagent:

作用:跟request差不多,我們可以用它來獲取get/post等請求,并且可以設置相關的請求頭信息,相比較使用內置的模塊,要簡單很多。

用法:

var superagent = require('superagent');
superagent
.get('/some-url')
.end(function(err, res){
  // Do something 
});

superagent-charset:

作用:解決編碼問題,因為電影天堂的編碼是gb2312,爬取下來的中文會亂碼掉。

用法:

var superagent = require('superagent');
var charset = require('superagent-charset');
charset(superagent);

superagent
.get('/some-url')
.charset('gb2312') //這里設置編碼
.end(function(err, res){
  // Do something 
});

async:

作用:Async是一個流程控制工具包,提供了直接而強大的異步功能,在這里作為處理并發(fā)來調用。

用法:這里需要用到的是:async.mapLimit(arr, limit, iterator, callback)

mapLimit可以同時發(fā)起多個異步操作,然后一起等待callback的返回,返回一個就再發(fā)起下一個。

arr是一個數組,limit并發(fā)數,將arr中的每一項依次拿給iterator去執(zhí)行,執(zhí)行結果傳給最后的callback

eventproxy:

作用:eventproxy 起到了計數器的作用,它來幫你管理到底異步操作是否完成,完成之后,它會自動調用你提供的處理函數,并將抓取到的數據當參數傳過來。

例如我首先抓取到電影天堂首頁側欄的鏈接,才可以接著抓取鏈接里面的內容。具體作用可以點這里

用法:

var ep = new EventProxy();
ep.after('got_file', files.length, function (list) {
 // 在所有文件的異步執(zhí)行結束后將被執(zhí)行 
 // 所有文件的內容都存在list數組中 
});
for (var i = 0; i < files.length; i++) {
 fs.readFile(files[i], 'utf-8', function (err, content) {
  // 觸發(fā)結果事件 
  ep.emit('got_file', content);
 });
}
//注意got_file這兩個名字必須對應

開始爬蟲

主要的程序在app.js這里,所以看的話可以主要看app.js即可

1、首先定義一些全局變量,該引入的庫引進來

var cheerio = require('cheerio'); //可以像jquer一樣操作界面
var charset = require('superagent-charset'); //解決亂碼問題:
var superagent = require('superagent'); //發(fā)起請求 
charset(superagent); 
var async = require('async'); //異步抓取
var express = require('express'); 
var eventproxy = require('eventproxy'); //流程控制
var ep = eventproxy();
var app = express();

var baseUrl = 'http://www.dytt8.net'; //迅雷首頁鏈接
var newMovieLinkArr=[]; //存放新電影的url
var errLength=[];   //統(tǒng)計出錯的鏈接數
var highScoreMovieArr=[] //高評分電影

2、開始爬取首頁迅雷首頁:

//先抓取迅雷首頁
(function (page) {
  superagent
  .get(page)
  .charset('gb2312')
  .end(function (err, sres) {
    // 常規(guī)的錯誤處理
    if (err) {
     console.log('抓取'+page+'這條信息的時候出錯了')
      return next(err);
    }
    var $ = cheerio.load(sres.text);
    // 170條電影鏈接,注意去重
    getAllMovieLink($);
    highScoreMovie($);
    /*
    *流程控制語句
    *當首頁左側的鏈接爬取完畢之后,我們就開始爬取里面的詳情頁
    */
    ep.emit('get_topic_html', 'get '+page+' successful');
  });
})(baseUrl);

在這里,我們先抓取首頁的東西,把首頁抓取到的頁面內容傳給 getAllMovieLink和highScoreMovie這兩個函數來處理,

getAllMovieLink獲取到了左側欄除了第1部的電影的169電影。

highScoreMovie為左側欄第一個鏈接,里面的都是評分比較高的電影。

上面的代碼中,我們弄了一個計數器,當它執(zhí)行完之后,我們就可以執(zhí)行與‘get_topic_html‘名字對應的流程了,從而可以保證在執(zhí)行完首頁的抓取工作之后,再執(zhí)行次級頁面的抓取工作。

ep.emit('get_topic_html', 'get '+page+' successful');

highScoreMovie方法如下,其實我們這里的作用不大,只是我統(tǒng)計一下高評分電影首頁的信息,懶的繼續(xù)抓取了

//評分8分以上影片 200余部!,這里只是統(tǒng)計數據,不再進行抓取
function highScoreMovie($){
  var url='http://www.dytt8.net'+$('.co_content2 ul a').eq(0).attr('href');
  console.log(url);
  superagent
  .get(url)
  .charset('gb2312')
  .end(function (err, sres) {
    // 常規(guī)的錯誤處理
    if (err) {
      console.log('抓取'+url+'這條信息的時候出錯了')
    }
    var $ = cheerio.load(sres.text);
    var elemP=$('#Zoom p');
    var elemA=$('#Zoom a');
    for (var k = 1; k < elemP.length; k++) {
      var Hurl=elemP.eq(k).find('a').text();
      if(highScoreMovieArr.indexOf(Hurl) ==-1){
        highScoreMovieArr.push(Hurl);
      };
    }
  });
}

3、分離出左側欄的信息,

如下圖,首頁中,詳情頁的鏈接都在這里$('.co_content2 ul a')。

因此我們將左側欄這里的詳情頁鏈接都遍歷出來,保存在一個newMovieLinkArr這個數組里面。

getAllMovieLink方法如下:

// 獲取首頁中左側欄的所有鏈接
function getAllMovieLink($){
  var linkElem=$('.co_content2 ul a');
  for(var i=1;i<170;i++){
    var url='http://www.dytt8.net'+linkElem.eq(i).attr('href');
    // 注意去重
    if(newMovieLinkArr.indexOf(url) ==-1){
      newMovieLinkArr.push(url);
    };
  }
}

4、對獲取到的電影詳情頁進行爬蟲,提取有用信息,比如電影的下載鏈接,這個是我們所關心的。

// 命令 ep 重復監(jiān)聽 emit事件(get_topic_html),當get_topic_html爬取完畢之后執(zhí)行
ep.after('get_topic_html', 1, function (eps) {
  var concurrencyCount = 0;
  var num=-4; //因為是5個并發(fā),所以需要減4

  // 利用callback函數將結果返回去,然后在結果中取出整個結果數組。
  var fetchUrl = function (myurl, callback) {
    var fetchStart = new Date().getTime();
    concurrencyCount++;
    num+=1
    console.log('現在的并發(fā)數是', concurrencyCount, ',正在抓取的是', myurl);
    superagent
    .get(myurl)
    .charset('gb2312') //解決編碼問題
    .end(function (err, ssres) {

      if (err) {
        callback(err, myurl + ' error happened!');
        errLength.push(myurl);
        return next(err);
      }

      var time = new Date().getTime() - fetchStart;
      console.log('抓取 ' + myurl + ' 成功', ',耗時' + time + '毫秒');
      concurrencyCount--;

      var $ = cheerio.load(ssres.text);

      // 對獲取的結果進行處理函數
      getDownloadLink($,function(obj){
        res.write('<br/>');
        res.write(num+'、電影名稱--> '+obj.movieName);
        res.write('<br/>');
        res.write('迅雷下載鏈接--> '+obj.downLink);
        res.write('<br/>');
        res.write('詳情鏈接--> <a href='+myurl+' target="_blank">'+myurl+'<a/>');
        res.write('<br/>');
        res.write('<br/>');
      });
      var result = {
         movieLink: myurl
      };
      callback(null, result);
    });
  };

  // 控制最大并發(fā)數為5,在結果中取出callback返回來的整個結果數組。
  // mapLimit(arr, limit, iterator, [callback])
  async.mapLimit(newMovieLinkArr, 5, function (myurl, callback) {
    fetchUrl(myurl, callback);
  }, function (err, result) {
    // 爬蟲結束后的回調,可以做一些統(tǒng)計結果
    console.log('抓包結束,一共抓取了-->'+newMovieLinkArr.length+'條數據');
    console.log('出錯-->'+errLength.length+'條數據');
    console.log('高評分電影:==》'+highScoreMovieArr.length);
    return false;
  });
  
});

首先是async.mapLimit對所有詳情頁做了一個并發(fā),并發(fā)數為5,然后再爬取詳情頁,爬詳情頁的過程其實和爬首頁的過程是一樣的,所以這里不做過多的介紹,然后將有用的信息打印到頁面上。

5、執(zhí)行命令之后的圖如下所示:

瀏覽器界面:

這樣,我們爬蟲的稍微升級版就就完成啦??赡芪恼聦懙牟皇呛芮宄?,我已經把代碼上傳到了github上,可以將代碼運行一遍,這樣的話比較容易理解。后面如果有時間,可能會再搞一個爬蟲的升級版本,比如將爬到的信息存入mongodb,然后再在另一個頁面展示。而爬蟲的程序加個定時器,定時去抓取。

備注:如果運行在瀏覽器中的中文亂碼的話,可以將谷歌的編碼設置為utf-8來解決;

代碼地址:https://github.com/xianyulaodi/mySpider2

有誤之處,歡迎指出

相關文章

  • Async/Await替代Promise的6個理由

    Async/Await替代Promise的6個理由

    這篇文章主要介紹了Async/Await替代Promise的6個理由,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,,需要的朋友可以參考下
    2019-06-06
  • nodeJS實現路由功能實例代碼

    nodeJS實現路由功能實例代碼

    本篇文章主要介紹了nodeJS實現路由功能實例代碼,小編覺得挺不錯的,現在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-06-06
  • 輕松創(chuàng)建nodejs服務器(7):阻塞操作的實現

    輕松創(chuàng)建nodejs服務器(7):阻塞操作的實現

    這篇文章主要介紹了輕松創(chuàng)建nodejs服務器(7):阻塞操作的實現,本文先是組出了代碼,然后對代碼一一分析,需要的朋友可以參考下
    2014-12-12
  • node制作一個視頻幀長圖生成器操作分享

    node制作一個視頻幀長圖生成器操作分享

    這篇文章主要介紹了node制作一個視頻幀長圖生成器操作分享,文章圍繞主題展開詳細的內容介紹,具有一定的參考價值,需要的朋友可以參考一下
    2022-08-08
  • NodeJS實現單點登錄原理解析

    NodeJS實現單點登錄原理解析

    隨著公司業(yè)務的增多,必然會產生各個不同的系統(tǒng),如果每個系統(tǒng)都需要單獨登錄的話就會很不方便,所以這個時候單點登錄會很方便,今天通過本文給大家講解NodeJS實現單點登錄原理解析,感興趣的朋友一起看看吧
    2022-05-05
  • sails框架的學習指南

    sails框架的學習指南

    本文從最基礎的sails框架知識開始講起,通過示例給我們展示了sails框架的各個方面,非常的不錯,推薦給小伙伴們
    2014-12-12
  • Node.js中的async?和?await?關鍵字微任務和宏任務

    Node.js中的async?和?await?關鍵字微任務和宏任務

    這篇文章主要介紹了Node.js中的async和await關鍵字微任務和宏任務,文章圍繞主題展開詳細的內容介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-07-07
  • Node配合WebSocket做多文件下載以及進度回傳

    Node配合WebSocket做多文件下載以及進度回傳

    這篇文章主要介紹了Node配合WebSocket做多文件下載以及進度回傳功能,本文通過實例代碼效果截圖給大家介紹的非常詳細,需要的朋友可以參考下
    2019-11-11
  • 關于nodejs和npm版本不匹配的解決方法

    關于nodejs和npm版本不匹配的解決方法

    在運行npm命令時總會出現如下報錯,npm?dose?not?support?Node.js v12.18.0,發(fā)現是node版本和npm版本不匹配造成的,所以本文給大家介紹了關于nodejs和npm版本不匹配的解決方法,需要的朋友可以參考下
    2023-11-11
  • Node.js Buffer用法解讀

    Node.js Buffer用法解讀

    這篇文章主要介紹了Node.js Buffer用法解讀,小編覺得挺不錯的,現在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-05-05

最新評論