欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

node.js 基于cheerio的爬蟲工具的實現(xiàn)(需要登錄權限的爬蟲工具)

 更新時間:2019年04月10日 15:13:47   作者:runRole  
這篇文章主要介紹了node.js 基于cheerio的爬蟲工具的實現(xiàn)(需要登錄權限的爬蟲工具) ,需要的朋友可以參考下

公司有過一個需求,需要拿一個網頁的的表格數(shù)據(jù),數(shù)據(jù)量達到30w左右;為了提高工作效率。

結合自身經驗和網上資料。寫了一套符合自己需求的nodejs爬蟲工具。也許也會適合你的。

先上代碼。在做講解

'use strict';
// 引入模塊
const superagent = require('superagent');
const cheerio = require('cheerio');
const Excel = require('exceljs');
var baseUrl = '';
var Cookies = 'PHPSESSID=1c948cafb361cb5dce87122846e649cd'; //偽裝的cookie
let pageDatas = [];
let count = 1;
let limit = 3;
for (count; count < limit; count++) { 
  baseUrl = `http://bxjd.henoo.com/policy/policyList?page=${count}`;
  loadPage(baseUrl); 
}
function loadPage(baseUrl) { 
   getPageLoad(baseUrl);
} 
async function getPageLoad(baseUrl) {
  try {
    let body = await superagent.get(baseUrl)
      .set("Cookie", Cookies)
    var $ = cheerio.load(body.text);
    var trList = $("#tableList").children("tr");  
      for (var i = 0; i < trList.length; i++) { 
        let item = {};
        var tdArr = trList.eq(i).find("td");
        var id = tdArr.eq(0).text();
        item.sortId = id;
        var detailUrl = `http://bxjd.henoo.com/policy/view?id=${id}`;
        item.policyId = tdArr.eq(1).text();
        item.policyProductName = tdArr.eq(2).text();
        item.policyName = tdArr.eq(3).text();
        item.policyMoney = tdArr.eq(4).text();
        let detailBody = await superagent.get(detailUrl)
          .set("Cookie", Cookies);
        var $$ = cheerio.load(detailBody.text);
        var detailT = $$(".table-view");     
        //投保人證件號
        item.policyIdNum = detailT.find("tr").eq(11).find("td").eq(1).text();
        //投保人手機號
        item.policyPhone = detailT.find("tr").eq(10).find("td").eq(1).text();
        //被保人手機號
        item.bePoliciedPhone = detailT.find("tr").eq(16).find("td").eq(1).text();      
        //被保人姓名
        item.bePoliciedName = detailT.find("tr").eq(13).find("td").eq(1).text();
        console.log(item.bePoliciedName)
        //被保人證件號
        item.bePoliciedIdNum = detailT.find("tr").eq(17).find("td").eq(1).text();
        pageDatas = [...pageDatas,item];
      }
    if (pageDatas.length / 15 == (count - 1)) { 
      writeXLS(pageDatas)
    }
  } catch (error) {
  }
}
function writeXLS(pageDatas) {
  const workbook = new Excel.Workbook();
  const sheet = workbook.addWorksheet('My Sheet');
  const reColumns=[
    {header:'序號',key:'sortId'},
    {header:'投保單號',key:'policyId'},
    {header: '產品名稱', key: 'policyProductName'},
    {header: '投保人姓名', key: 'policyName' },
    {header: '投保人手機號', key: 'policyPhone' },
    {header: '投保人證件號', key: 'policyIdNum'},
    {header: '被保人姓名', key: 'bePoliciedName' },
    {header: '被保人手機號', key: 'bePoliciedPhone' },
    {header: '被保人證件號', key: 'bePoliciedIdNum' },
    {header:'保費',key:'policyMoney'},
  ];
  sheet.columns = reColumns;
  for(let trData of pageDatas){
    sheet.addRow(trData);
  }
  const filename = './projects.xlsx';
  workbook.xlsx.writeFile(filename)
  .then(function() {
   console.log('ok');
  }).catch(function (error) { 
     console.error(error); 
  });
 }

代碼使用方式

一、npm install 相關的依賴二、代碼修改

1、修改為自己的baseUrl

2、如果不需要攜帶cookie時將set("Cookie", Cookies)代碼去掉

3、修改自己的業(yè)務代碼

三、運行 node index四、部分代碼說明

所有代碼不過90行不到,操作了表格數(shù)據(jù)獲取和單條數(shù)據(jù)詳情的獲取

接口請求的框架使用superagent的原因是拼接偽裝的cookie的操作比較簡單。因為有的時候我們需要獲取登錄后的頁面數(shù)據(jù)。

這個時候可能需要請求是攜帶登錄cookie信息。返回后的body對象通過cheerio.load之后就能拿到一個類似jquery的文檔對象。

后面就可以很方便的使用jquery的dom操作方式去拿到頁面內自己想要的數(shù)據(jù)了。

數(shù)據(jù)寫入到excel中。

五、結果

總結

相關文章

  • nodejs 提示‘xxx’ 不是內部或外部命令解決方法

    nodejs 提示‘xxx’ 不是內部或外部命令解決方法

    本文介紹了node.js包管理工具npm安裝模塊后,無法通過命令行執(zhí)行命令,提示‘xxx’ 不是內部或外部命令的解決方法,給需要的小伙伴參考下。
    2014-11-11
  • 快速了解Node中的Stream流是什么

    快速了解Node中的Stream流是什么

    今天小編就為大家分享一篇關于快速了解Node中的Stream流是什么,小編覺得內容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-02-02
  • node.js中的http.response.setHeader方法使用說明

    node.js中的http.response.setHeader方法使用說明

    這篇文章主要介紹了node.js中的http.response.setHeader方法使用說明,本文介紹了http.response.setHeader的方法說明、語法、接收參數(shù)、使用實例和實現(xiàn)源碼,需要的朋友可以參考下
    2014-12-12
  • 在koa中簡單使用Websocket連接的方法示例

    在koa中簡單使用Websocket連接的方法示例

    本文主要介紹了在koa中簡單使用Websocket連接的方法示例,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-02-02
  • node.js+captchapng+jsonwebtoken實現(xiàn)登錄驗證示例

    node.js+captchapng+jsonwebtoken實現(xiàn)登錄驗證示例

    本篇文章主要介紹了node.js+captchapng+jsonwebtoken實現(xiàn)登錄驗證示例,具有一定的參考價值,有興趣的可以了解一下
    2017-08-08
  • window10系統(tǒng)下nvm詳細安裝步驟以及使用

    window10系統(tǒng)下nvm詳細安裝步驟以及使用

    nvm可以管理不同版本的node和npm,可以簡單操作node版本的切換、安裝、查看等,下面這篇文章主要給大家介紹了關于window10系統(tǒng)下nvm詳細安裝步驟以及使用的相關資料,需要的朋友可以參考下
    2022-07-07
  • Node.js結合FFmpeg構建自動化腳本實現(xiàn)轉碼視頻

    Node.js結合FFmpeg構建自動化腳本實現(xiàn)轉碼視頻

    傳統(tǒng)的視頻轉碼中,很常用的工具是FFmpeg,本文主要介紹了Node.js結合FFmpeg構建自動化腳本實現(xiàn)轉碼視頻,具有一定的參考價值,感興趣的可以了解一下
    2024-04-04
  • node.js中express中間件body-parser的介紹與用法詳解

    node.js中express中間件body-parser的介紹與用法詳解

    這篇文章主要給大家介紹了關于node.js中express中間件body-parser的相關資料,文章通過示例代碼介紹的非常詳細,對大家具有一定的參考學習價值,需要的朋友們下面來一起看看吧。
    2017-05-05
  • Node.js API詳解之 dns模塊用法實例分析

    Node.js API詳解之 dns模塊用法實例分析

    這篇文章主要介紹了Node.js API詳解之 dns模塊用法,結合實例形式分析了Node.js API中dns模塊基本功能、相關函數(shù)與使用技巧,需要的朋友可以參考下
    2020-05-05
  • 比較node.js和Deno

    比較node.js和Deno

    這篇文章主要介紹了node.js和Deno的區(qū)別,對deno感興趣的同學,可以參考下
    2021-04-04

最新評論