Node.JS利用PhantomJs抓取網(wǎng)頁(yè)入門(mén)教程
前言
當(dāng)想用 nodejs 抓取一些網(wǎng)頁(yè) , 我第一反應(yīng)想到的就是使用 http 模塊 , 比如抓取百度首頁(yè):
var http = require('http'); var req = http.request('http://www.baidu.com/', function (res) { res.setEncoding('utf8'); res.on('data', function (chunk) { //響應(yīng)內(nèi)容 console.log(chunk) }); }); req.end(function () { // console.log('連接關(guān)閉'); });
但是 , 這僅限于簡(jiǎn)單地抓取 html , 有很大的局限性。
假如你想要的內(nèi)容不在 html 里 , 而是 js 動(dòng)態(tài)生成的 , 那 http 模塊就不能滿足你的需求了 ;
假如網(wǎng)頁(yè)使 gbk 編碼的 , 上述方法也不太好用了。
假如是 https 上述方法也要改一改了。
我渴望一個(gè)更強(qiáng)大 , 但使用起來(lái)也不麻煩的工具。
PhantomJs
用 PhantomJs 就可以解決上述問(wèn)題。
PhantomJs 就是一個(gè)沒(méi)有界面的瀏覽器。
安裝
使用 cnpm 安裝 PhantomJS 即可:
cnpm install phantomjs --save-dev
這里我沒(méi)有選擇全局安裝 , 因?yàn)槿职惭b的話 , 別人使用我的源碼的時(shí)候 , 不知道還有這么一個(gè)依賴(lài) , 項(xiàng)目就跑不起來(lái)了。
如果你也選擇局部安裝 , 那么你需要在 package.json 里的 scripts 中加入一段 :
"phantomjs":"node_modules/.bin/phantomjs"
等下會(huì)用到這個(gè)的 , 到這里 , 安裝算完成了。
寫(xiě)代碼
我們新建一個(gè)文件 , 名字隨意 , 這里我新建一個(gè) main.js :
var webpage = require('webpage'); var page = webpage.create(); page.open('http://www.baidu.com/', function (status) { var data; if (status === 'fail') { console.log('open page fail!'); } else { console.log(page.content);//打印出HTML內(nèi)容 } page.close();//關(guān)閉網(wǎng)頁(yè) phantom.exit();//退出phantomjs命令行 });
這里有個(gè) webpage 模塊 , 我們剛才明明沒(méi)有這個(gè)模塊 , 為什么能引用這個(gè)模塊 ???
當(dāng)然不能引用 , 假如我們使用 node main.js
來(lái)跑這段代碼 , 是跑不起來(lái)的 , 應(yīng)該這樣運(yùn)行這段代碼 :
npm run phantomjs main.js
這里的 npm run phantomjs
對(duì)應(yīng)的就是前面我們?cè)?package.json 里加入的那段命令 , 很方便吧 , 幾乎和 http 模塊一樣方便。
page.content 就是 html 代碼了 , 這個(gè) page 對(duì)象還有很多的屬性 , 功能更強(qiáng)大。
到這里 , 你就已經(jīng)算入門(mén)了 , 想知道更多可以去 phantomjs 官網(wǎng)看看文檔了。
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
- java利用phantomjs進(jìn)行截圖實(shí)例教程
- 解決phantomjs截圖失敗,phantom.exit位置的問(wèn)題
- Python爬蟲(chóng)使用Selenium+PhantomJS抓取Ajax和動(dòng)態(tài)HTML內(nèi)容
- Java PhantomJs完成html圖片輸出功能
- phantomjs導(dǎo)出html到pdf的方法總結(jié)
- C#使用Selenium+PhantomJS抓取數(shù)據(jù)
- 基于Phantomjs生成PDF的實(shí)現(xiàn)方法
- Phantomjs抓取渲染JS后的網(wǎng)頁(yè)(Python代碼)
- PhantomJS快速入門(mén)教程(服務(wù)器端的 JavaScript API 的 WebKit)
- 基于linnux+phantomjs實(shí)現(xiàn)生成圖片格式的網(wǎng)頁(yè)快照
- 使用phantomjs進(jìn)行網(wǎng)頁(yè)抓取的實(shí)現(xiàn)代碼
- 利用NodeJS和PhantomJS抓取網(wǎng)站頁(yè)面信息以及網(wǎng)站截圖
- Windows系統(tǒng)下PhantomJS的安裝和基本用法
相關(guān)文章
基于Node-red的在線評(píng)語(yǔ)系統(tǒng)(可視化編程,公網(wǎng)訪問(wèn))
Node-Red是IBM公司開(kāi)發(fā)的一個(gè)可視化的編程工具,在網(wǎng)頁(yè)內(nèi)編程,主要是拖拽控件,代碼量很小,這篇文章主要介紹了基于Node-red的在線評(píng)語(yǔ)系統(tǒng)(可視化編程,公網(wǎng)訪問(wèn)),需要的朋友可以參考下2022-01-01node爬取新型冠狀病毒的疫情實(shí)時(shí)動(dòng)態(tài)
這篇文章主要介紹了node爬取新型冠狀病毒的疫情實(shí)時(shí)動(dòng)態(tài),非常不錯(cuò),本文通過(guò)實(shí)例代碼給大家講解的非常詳細(xì),需要的朋友可以參考下2020-02-02配置node服務(wù)器并且鏈接微信公眾號(hào)接口配置步驟詳解
這篇文章主要介紹了配置node服務(wù)器并且鏈接微信公眾號(hào)接口配置步驟詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,,需要的朋友可以參考下2019-06-06如何用Node寫(xiě)頁(yè)面爬蟲(chóng)的工具集
這篇文章主要介紹了如何用Node寫(xiě)頁(yè)面爬蟲(chóng)的工具集,主要介紹了三種方法,分別是Puppeteer、cheerio和Auto.js,感興趣的小伙伴們可以參考一下2018-10-10利用node.js如何創(chuàng)建子進(jìn)程詳解
之前看多進(jìn)程這一章節(jié)時(shí)發(fā)現(xiàn)這塊東西挺多,寫(xiě)Process模塊的時(shí)候也有提到,今天下午午休醒來(lái)靜下心來(lái)好好的看了一遍,發(fā)現(xiàn)也不是太難理解。所以下面這篇文章主要給大家介紹了關(guān)于利用node.js如何創(chuàng)建子進(jìn)程的相關(guān)資料,需要的朋友可以參考下。2017-12-12說(shuō)說(shuō)如何利用 Node.js 代理解決跨域問(wèn)題
這篇文章主要介紹了Node.js代理解決跨域問(wèn)題,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-04-04nvm報(bào)錯(cuò)Now?using?node?v版本號(hào)(64-bit)圖文解決方法
這篇文章主要給大家介紹了關(guān)于nvm報(bào)錯(cuò)Now?using?node?v版本號(hào)(64-bit)的解決方法,文中將解決的辦法介紹的非常詳細(xì),對(duì)遇到這個(gè)問(wèn)題的朋友具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2023-11-11