腳本之家服務器常用軟件

快捷導航

node實現(xiàn)爬蟲的幾種簡易方式

更新時間：2019年08月22日 08:26:09 作者：coolwan丶

這篇文章主要給大家介紹了關于node實現(xiàn)爬蟲的幾種簡易方式，文中通過示例代碼介紹的非常詳細，對大家學習或者使用node具有一定的參考學習價值，需要的朋友們下面來一起學習學習吧

說到爬蟲大家可能會覺得很NB的東西，可以爬小電影，羞羞圖，沒錯就是這樣的。在node爬蟲方面，我也是個新人，這篇文章主要是給大家分享幾種實現(xiàn)node

爬蟲的方式。第一種方式，采用node,js中的 superagent+request + cheerio。cheerio是必須的，它相當于node版的jQuery，用過jQuery的同學會非常容易上手。它

主要是用來獲取抓取到的頁面元素和其中的數(shù)據(jù)信息。superagent是node里一個非常方便的、輕量的、漸進式的第三方客戶端請求代理模塊，用他來請求目標頁面。

node中，http模塊也可作為客戶端使用（發(fā)送請求），第三方模塊request對其使用方法進行了封裝，操作更方便。以下是三者的引入方法：

接下來我們開始請求要爬取的目標頁面。申明目標頁面比如新浪網(wǎng)首頁：

如新浪首頁部分代碼

通過superagent請求目標網(wǎng)站，獲取到網(wǎng)站內容，通過cheerio.load方法引入要解析的html
cheerio中的有關DOM操作的方式

此處采用 .each(function(index,element){...})方式遍歷需要的元素

返回結果如下：

若要將文字內容存儲可采用以下方式：

引入fs模塊const fs= require("fs")

引入path模塊 const path=require("path")

Node.js 內置的fs模塊就是文件系統(tǒng)模塊，負責讀寫文件。和所有其他JS模塊不同的是，fs模塊同時提供了異步和同步的方法。

在上述方法中調用存儲文字內容mkdirs方法

//存放數(shù)據(jù)
mkdirs('./content2',saveContent); (注: content2是新建文件名；saveContent是回調函數(shù))

文字內容最終將存儲在content2中的content.txt文件中

若想存儲圖片可采用以下方式:

第二種方式：使用Nightmare自動化測試工具。

這里介紹一下nightmare工具的用途：

Electron可以讓你使用純JavaScript調用Chrome豐富的原生的接口來創(chuàng)造桌面應用。你可以把它看作一個專注于桌面應用的Node.js的變體，而不是Web服務器。

其基于瀏覽器的應用方式可以極方便的做各種響應式的交互

Nightmare是一個基于Electron的框架，針對Web自動化測試和爬蟲，因為其具有跟PlantomJS一樣的自動化測試的功能可以在頁面上模擬用戶的行為觸發(fā)一些異步數(shù)據(jù)加載，

也可以跟Request庫一樣直接訪問URL來抓取數(shù)據(jù)，并且可以設置頁面的延遲時間，所以無論是手動觸發(fā)腳本還是行為觸發(fā)腳本都是輕而易舉的。

const Nightmare=require("nightmare") //自動化測試包 ，處理動態(tài)頁面
const nightmare=Nightmare({show: true}) show:true時，運行node可以顯示內置模擬瀏覽器

運行結束后，會在image2中存儲下載的圖片。

好了，文章就到這里了，有什么問題歡迎小伙伴指正。

總結

以上就是這篇文章的全部內容了，希望本文的內容對大家的學習或者工作具有一定的參考學習價值，謝謝大家對腳本之家的支持。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片