C#使用Selenium+PhantomJS抓取數(shù)據(jù)
手頭項目需要抓取一個用js渲染出來的網(wǎng)站中的數(shù)據(jù)。使用常用的httpclient抓回來的頁面是沒有數(shù)據(jù)。上網(wǎng)百度了一下,大家推薦的方案是使用PhantomJS。PhantomJS是一個沒有界面的webkit瀏覽器,能夠和瀏覽器效果一致的使用js渲染頁面。Selenium是一個web測試框架。使用Selenium來操作PhantomJS絕配。但是網(wǎng)上的例子多是Python的。無奈,下載了python按照教程搞了一下,卡在了Selenium的導入問題上。遂放棄,還是用自己慣用的c#吧,就不信c#上沒有。經(jīng)過半個小時的折騰,搞定(python折騰了一個小時)。記錄下這篇博文,讓我等搞c#的新手能用上PhantomJS。
第一步:打開visual studio 2017 新建一個控制臺項目,打開nuget包管理器。
第二部:搜索Selenium,安裝Selenium.WebDriver。注意:如果要使用代理的話最好安裝3.0.0版本。
第三步:寫下如下圖所示的代碼。但是執(zhí)行的時候會報錯。原因是找不到PhantomJS.exe。這時候可以去下載一個,也可以繼續(xù)看第四步。
using OpenQA.Selenium; using OpenQA.Selenium.PhantomJS; using System; namespace ConsoleApp1 { class Program { static void Main(string[] args) { var url = "http://www.baidu.com"; IWebDriver driver = new PhantomJSDriver(GetPhantomJSDriverService()); driver.Navigate().GoToUrl(url); Console.WriteLine(driver.PageSource); Console.Read(); } private static PhantomJSDriverService GetPhantomJSDriverService() { PhantomJSDriverService pds = PhantomJSDriverService.CreateDefaultService(); //設置代理服務器地址 //pds.Proxy = $"{ip}:{port}"; //設置代理服務器認證信息 //pds.ProxyAuthentication = GetProxyAuthorization(); return pds; } } }
第四步:打開nuget安裝Selenium.PhantomJS.WebDriver包。
第五步:運行。可以看到phantomjs.exe被自動下載了。
好了,這樣就可以開始你的數(shù)據(jù)抓取大業(yè)了。
以上就是本文的全部內(nèi)容,希望本文的內(nèi)容對大家的學習或者工作能帶來一定的幫助,同時也希望多多支持腳本之家!
相關文章
C#/VB.NET 給Excel添加、刪除數(shù)字簽名的方法
這篇文章主要介紹了C#/VB.NET 給Excel添加、刪除數(shù)字簽名的方法,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-11-11