node.js 基于cheerio的爬蟲工具的實現(xiàn)(需要登錄權限的爬蟲工具)
公司有過一個需求,需要拿一個網頁的的表格數(shù)據(jù),數(shù)據(jù)量達到30w左右;為了提高工作效率。
結合自身經驗和網上資料。寫了一套符合自己需求的nodejs爬蟲工具。也許也會適合你的。
先上代碼。在做講解
'use strict'; // 引入模塊 const superagent = require('superagent'); const cheerio = require('cheerio'); const Excel = require('exceljs'); var baseUrl = ''; var Cookies = 'PHPSESSID=1c948cafb361cb5dce87122846e649cd'; //偽裝的cookie let pageDatas = []; let count = 1; let limit = 3; for (count; count < limit; count++) { baseUrl = `http://bxjd.henoo.com/policy/policyList?page=${count}`; loadPage(baseUrl); } function loadPage(baseUrl) { getPageLoad(baseUrl); } async function getPageLoad(baseUrl) { try { let body = await superagent.get(baseUrl) .set("Cookie", Cookies) var $ = cheerio.load(body.text); var trList = $("#tableList").children("tr"); for (var i = 0; i < trList.length; i++) { let item = {}; var tdArr = trList.eq(i).find("td"); var id = tdArr.eq(0).text(); item.sortId = id; var detailUrl = `http://bxjd.henoo.com/policy/view?id=${id}`; item.policyId = tdArr.eq(1).text(); item.policyProductName = tdArr.eq(2).text(); item.policyName = tdArr.eq(3).text(); item.policyMoney = tdArr.eq(4).text(); let detailBody = await superagent.get(detailUrl) .set("Cookie", Cookies); var $$ = cheerio.load(detailBody.text); var detailT = $$(".table-view"); //投保人證件號 item.policyIdNum = detailT.find("tr").eq(11).find("td").eq(1).text(); //投保人手機號 item.policyPhone = detailT.find("tr").eq(10).find("td").eq(1).text(); //被保人手機號 item.bePoliciedPhone = detailT.find("tr").eq(16).find("td").eq(1).text(); //被保人姓名 item.bePoliciedName = detailT.find("tr").eq(13).find("td").eq(1).text(); console.log(item.bePoliciedName) //被保人證件號 item.bePoliciedIdNum = detailT.find("tr").eq(17).find("td").eq(1).text(); pageDatas = [...pageDatas,item]; } if (pageDatas.length / 15 == (count - 1)) { writeXLS(pageDatas) } } catch (error) { } } function writeXLS(pageDatas) { const workbook = new Excel.Workbook(); const sheet = workbook.addWorksheet('My Sheet'); const reColumns=[ {header:'序號',key:'sortId'}, {header:'投保單號',key:'policyId'}, {header: '產品名稱', key: 'policyProductName'}, {header: '投保人姓名', key: 'policyName' }, {header: '投保人手機號', key: 'policyPhone' }, {header: '投保人證件號', key: 'policyIdNum'}, {header: '被保人姓名', key: 'bePoliciedName' }, {header: '被保人手機號', key: 'bePoliciedPhone' }, {header: '被保人證件號', key: 'bePoliciedIdNum' }, {header:'保費',key:'policyMoney'}, ]; sheet.columns = reColumns; for(let trData of pageDatas){ sheet.addRow(trData); } const filename = './projects.xlsx'; workbook.xlsx.writeFile(filename) .then(function() { console.log('ok'); }).catch(function (error) { console.error(error); }); }
代碼使用方式
一、npm install
相關的依賴二、代碼修改
1、修改為自己的baseUrl
2、如果不需要攜帶cookie時將set("Cookie", Cookies)
代碼去掉
3、修改自己的業(yè)務代碼
三、運行 node index四、部分代碼說明
所有代碼不過90行不到,操作了表格數(shù)據(jù)獲取和單條數(shù)據(jù)詳情的獲取
接口請求的框架使用superagent的原因是拼接偽裝的cookie的操作比較簡單。因為有的時候我們需要獲取登錄后的頁面數(shù)據(jù)。
這個時候可能需要請求是攜帶登錄cookie信息。返回后的body對象通過cheerio.load之后就能拿到一個類似jquery的文檔對象。
后面就可以很方便的使用jquery的dom操作方式去拿到頁面內自己想要的數(shù)據(jù)了。
數(shù)據(jù)寫入到excel中。
五、結果
總結
相關文章
node.js中的http.response.setHeader方法使用說明
這篇文章主要介紹了node.js中的http.response.setHeader方法使用說明,本文介紹了http.response.setHeader的方法說明、語法、接收參數(shù)、使用實例和實現(xiàn)源碼,需要的朋友可以參考下2014-12-12node.js+captchapng+jsonwebtoken實現(xiàn)登錄驗證示例
本篇文章主要介紹了node.js+captchapng+jsonwebtoken實現(xiàn)登錄驗證示例,具有一定的參考價值,有興趣的可以了解一下2017-08-08window10系統(tǒng)下nvm詳細安裝步驟以及使用
nvm可以管理不同版本的node和npm,可以簡單操作node版本的切換、安裝、查看等,下面這篇文章主要給大家介紹了關于window10系統(tǒng)下nvm詳細安裝步驟以及使用的相關資料,需要的朋友可以參考下2022-07-07Node.js結合FFmpeg構建自動化腳本實現(xiàn)轉碼視頻
傳統(tǒng)的視頻轉碼中,很常用的工具是FFmpeg,本文主要介紹了Node.js結合FFmpeg構建自動化腳本實現(xiàn)轉碼視頻,具有一定的參考價值,感興趣的可以了解一下2024-04-04node.js中express中間件body-parser的介紹與用法詳解
這篇文章主要給大家介紹了關于node.js中express中間件body-parser的相關資料,文章通過示例代碼介紹的非常詳細,對大家具有一定的參考學習價值,需要的朋友們下面來一起看看吧。2017-05-05