使用phantomjs進(jìn)行網(wǎng)頁抓取的實現(xiàn)代碼
phantomjs因為是無頭瀏覽器可以跑js,所以同樣可以跑dom節(jié)點,用來進(jìn)行網(wǎng)頁抓取是再好不過了。
比如我們要批量抓取網(wǎng)頁 “歷史上的今天” 的內(nèi)容。網(wǎng)站
對dom結(jié)構(gòu)的觀察發(fā)現(xiàn),我們只需要取到 .list li a的title值即可。因此我們利用高級選擇器構(gòu)建dom片段
var d= '' var c = document.querySelectorAll('.list li a') var l = c.length; for(var i =0;i<l;i++){ d=d+c[i].title+'\n' }
之后只需要讓js代碼在phantomjs里跑起來即可~
var page = require('webpage').create(); page.open('http://www.todayonhistory.com/', function (status) { //打開頁面 if (status !== 'success') { console.log('FAIL to load the address'); } else { console.log(page.evaluate(function () { var d= '' var c = document.querySelectorAll('.list li a') var l = c.length; for(var i =0;i<l;i++){ d=d+c[i].title+'\n' } return d })) } phantom.exit(); });
最終我們另存為catch.js,在dos里面執(zhí)行一下,輸出內(nèi)容到txt文件(也可以用phantomjs的文件api來寫)
- java利用phantomjs進(jìn)行截圖實例教程
- 解決phantomjs截圖失敗,phantom.exit位置的問題
- Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態(tài)HTML內(nèi)容
- Java PhantomJs完成html圖片輸出功能
- phantomjs導(dǎo)出html到pdf的方法總結(jié)
- Node.JS利用PhantomJs抓取網(wǎng)頁入門教程
- C#使用Selenium+PhantomJS抓取數(shù)據(jù)
- 基于Phantomjs生成PDF的實現(xiàn)方法
- Phantomjs抓取渲染JS后的網(wǎng)頁(Python代碼)
- PhantomJS快速入門教程(服務(wù)器端的 JavaScript API 的 WebKit)
- 基于linnux+phantomjs實現(xiàn)生成圖片格式的網(wǎng)頁快照
- 利用NodeJS和PhantomJS抓取網(wǎng)站頁面信息以及網(wǎng)站截圖
- Windows系統(tǒng)下PhantomJS的安裝和基本用法
相關(guān)文章
JavaScript控制兩個列表框listbox左右交換數(shù)據(jù)的方法
這篇文章主要介紹了JavaScript控制兩個列表框listbox左右交換數(shù)據(jù)的方法,實例分析了javascript操作列表框listbox的技巧,非常具有實用價值,需要的朋友可以參考下2015-03-03Javascript Echarts空氣質(zhì)量地圖效果詳解
這篇文章主要介紹了詳解Javascript利用echarts畫空氣質(zhì)量地圖,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-10-10js中symbol類型以及symbol的三大應(yīng)用場景詳解
Symbol是ES6新推出的一種基本類型,它表示獨(dú)一無二的值,它可以接受一個字符串作為參數(shù),帶有相同參數(shù)的兩個Symbol值不相等,這個參數(shù)只是表示Symbol值的描述而已,下面這篇文章主要給大家介紹了關(guān)于js中symbol類型以及symbol的三大應(yīng)用場景,需要的朋友可以參考下2022-09-09JavaScript中的方法調(diào)用詳細(xì)介紹
這篇文章主要介紹了JavaScript中的方法調(diào)用詳細(xì)介紹,JavaScript中,如果function屬于一個對象,那么通過對象來訪問該function的行為稱之為“方法調(diào)用”,需要的朋友可以參考下2014-12-12JavaScript常用的3種彈出框(提示框?alert/確認(rèn)框?confirm/輸入框?prompt)
三種彈框在系統(tǒng)中都是同步執(zhí)行的,也就是說,三種彈框中的任一彈框彈出,代碼都不在執(zhí)行,直到點擊確認(rèn)或取消,關(guān)閉彈窗后,代碼繼續(xù)執(zhí)行,本文通過實例代碼給大家分享JS常用的3種彈出框,感興趣的朋友一起看看吧2022-07-07