欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Node.JS利用PhantomJs抓取網(wǎng)頁入門教程

 更新時間:2017年05月19日 08:33:35   作者:6666  
現(xiàn)今,網(wǎng)頁抓取已經(jīng)是一種人所共知的技術(shù)了,然而依然存在著諸多復(fù)雜性,下面這篇文章主要給大家介紹了Node.JS利用PhantomJs抓取網(wǎng)頁的方法教程,需要的朋友可以參考借鑒,下面來一起看看吧。

前言

當(dāng)想用 nodejs 抓取一些網(wǎng)頁 , 我第一反應(yīng)想到的就是使用 http 模塊 , 比如抓取百度首頁:

var http = require('http');
var req = http.request('http://www.baidu.com/', function (res) {
 res.setEncoding('utf8');
 res.on('data', function (chunk) {
  //響應(yīng)內(nèi)容
  console.log(chunk)
 });
});
req.end(function () {
 // console.log('連接關(guān)閉');
});

但是 , 這僅限于簡單地抓取 html , 有很大的局限性。

假如你想要的內(nèi)容不在 html 里 , 而是 js 動態(tài)生成的 , 那 http 模塊就不能滿足你的需求了 ;

假如網(wǎng)頁使 gbk 編碼的 , 上述方法也不太好用了。

假如是 https 上述方法也要改一改了。

我渴望一個更強大 , 但使用起來也不麻煩的工具。

PhantomJs

用 PhantomJs 就可以解決上述問題。

PhantomJs 就是一個沒有界面的瀏覽器。

安裝

使用 cnpm 安裝 PhantomJS 即可:

cnpm install phantomjs --save-dev

這里我沒有選擇全局安裝 , 因為全局安裝的話 , 別人使用我的源碼的時候 , 不知道還有這么一個依賴 , 項目就跑不起來了。

如果你也選擇局部安裝 , 那么你需要在 package.json 里的 scripts 中加入一段 :

"phantomjs":"node_modules/.bin/phantomjs"

等下會用到這個的 , 到這里 , 安裝算完成了。

寫代碼

我們新建一個文件 , 名字隨意 , 這里我新建一個 main.js :

var webpage = require('webpage');
var page = webpage.create();
page.open('http://www.baidu.com/', function (status) {
 var data;
 if (status === 'fail') {
  console.log('open page fail!');
 } else {
  console.log(page.content);//打印出HTML內(nèi)容
 }
 page.close();//關(guān)閉網(wǎng)頁
 phantom.exit();//退出phantomjs命令行
});

這里有個 webpage 模塊 , 我們剛才明明沒有這個模塊 , 為什么能引用這個模塊 ???

當(dāng)然不能引用 , 假如我們使用 node main.js 來跑這段代碼 , 是跑不起來的 , 應(yīng)該這樣運行這段代碼 :

npm run phantomjs main.js

這里的 npm run phantomjs 對應(yīng)的就是前面我們在 package.json 里加入的那段命令 , 很方便吧 , 幾乎和 http 模塊一樣方便。

page.content 就是 html 代碼了 , 這個 page 對象還有很多的屬性 , 功能更強大。

到這里 , 你就已經(jīng)算入門了 , 想知道更多可以去 phantomjs 官網(wǎng)看看文檔了。

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。

相關(guān)文章

  • 進階之初探nodeJS

    進階之初探nodeJS

    本文主要介紹了nodeJS的相關(guān)知識。具有很好的參考價值,下面跟著小編一起來看下吧
    2017-01-01
  • 基于Node-red的在線評語系統(tǒng)(可視化編程,公網(wǎng)訪問)

    基于Node-red的在線評語系統(tǒng)(可視化編程,公網(wǎng)訪問)

    Node-Red是IBM公司開發(fā)的一個可視化的編程工具,在網(wǎng)頁內(nèi)編程,主要是拖拽控件,代碼量很小,這篇文章主要介紹了基于Node-red的在線評語系統(tǒng)(可視化編程,公網(wǎng)訪問),需要的朋友可以參考下
    2022-01-01
  • node爬取新型冠狀病毒的疫情實時動態(tài)

    node爬取新型冠狀病毒的疫情實時動態(tài)

    這篇文章主要介紹了node爬取新型冠狀病毒的疫情實時動態(tài),非常不錯,本文通過實例代碼給大家講解的非常詳細,需要的朋友可以參考下
    2020-02-02
  • 配置node服務(wù)器并且鏈接微信公眾號接口配置步驟詳解

    配置node服務(wù)器并且鏈接微信公眾號接口配置步驟詳解

    這篇文章主要介紹了配置node服務(wù)器并且鏈接微信公眾號接口配置步驟詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,,需要的朋友可以參考下
    2019-06-06
  • 淺談node.js 命令行工具(cli)

    淺談node.js 命令行工具(cli)

    nodejs開發(fā)命令行工具,流程相對簡單,但一套完整的命令行程序開發(fā)流程下來,還是需要下點功夫,這篇文章主要介紹了淺談node.js 命令行工具(cli),感興趣的小伙伴們可以參考一下
    2018-05-05
  • 如何用Node寫頁面爬蟲的工具集

    如何用Node寫頁面爬蟲的工具集

    這篇文章主要介紹了如何用Node寫頁面爬蟲的工具集,主要介紹了三種方法,分別是Puppeteer、cheerio和Auto.js,感興趣的小伙伴們可以參考一下
    2018-10-10
  • 利用node.js如何創(chuàng)建子進程詳解

    利用node.js如何創(chuàng)建子進程詳解

    之前看多進程這一章節(jié)時發(fā)現(xiàn)這塊東西挺多,寫Process模塊的時候也有提到,今天下午午休醒來靜下心來好好的看了一遍,發(fā)現(xiàn)也不是太難理解。所以下面這篇文章主要給大家介紹了關(guān)于利用node.js如何創(chuàng)建子進程的相關(guān)資料,需要的朋友可以參考下。
    2017-12-12
  • 解決node.js中bcrypt遇到的安裝問題

    解決node.js中bcrypt遇到的安裝問題

    這篇文章主要介紹了解決node.js中bcrypt遇到的安裝問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-10-10
  • 說說如何利用 Node.js 代理解決跨域問題

    說說如何利用 Node.js 代理解決跨域問題

    這篇文章主要介紹了Node.js代理解決跨域問題,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-04-04
  • nvm報錯Now?using?node?v版本號(64-bit)圖文解決方法

    nvm報錯Now?using?node?v版本號(64-bit)圖文解決方法

    這篇文章主要給大家介紹了關(guān)于nvm報錯Now?using?node?v版本號(64-bit)的解決方法,文中將解決的辦法介紹的非常詳細,對遇到這個問題的朋友具有一定的參考借鑒價值,需要的朋友可以參考下
    2023-11-11

最新評論