C#使用Selenium+PhantomJS抓取數(shù)據(jù)
手頭項(xiàng)目需要抓取一個(gè)用js渲染出來(lái)的網(wǎng)站中的數(shù)據(jù)。使用常用的httpclient抓回來(lái)的頁(yè)面是沒(méi)有數(shù)據(jù)。上網(wǎng)百度了一下,大家推薦的方案是使用PhantomJS。PhantomJS是一個(gè)沒(méi)有界面的webkit瀏覽器,能夠和瀏覽器效果一致的使用js渲染頁(yè)面。Selenium是一個(gè)web測(cè)試框架。使用Selenium來(lái)操作PhantomJS絕配。但是網(wǎng)上的例子多是Python的。無(wú)奈,下載了python按照教程搞了一下,卡在了Selenium的導(dǎo)入問(wèn)題上。遂放棄,還是用自己慣用的c#吧,就不信c#上沒(méi)有。經(jīng)過(guò)半個(gè)小時(shí)的折騰,搞定(python折騰了一個(gè)小時(shí))。記錄下這篇博文,讓我等搞c#的新手能用上PhantomJS。
第一步:打開(kāi)visual studio 2017 新建一個(gè)控制臺(tái)項(xiàng)目,打開(kāi)nuget包管理器。

第二部:搜索Selenium,安裝Selenium.WebDriver。注意:如果要使用代理的話(huà)最好安裝3.0.0版本。

第三步:寫(xiě)下如下圖所示的代碼。但是執(zhí)行的時(shí)候會(huì)報(bào)錯(cuò)。原因是找不到PhantomJS.exe。這時(shí)候可以去下載一個(gè),也可以繼續(xù)看第四步。
using OpenQA.Selenium;
using OpenQA.Selenium.PhantomJS;
using System;
namespace ConsoleApp1
{
class Program
{
static void Main(string[] args)
{
var url = "http://www.baidu.com";
IWebDriver driver = new PhantomJSDriver(GetPhantomJSDriverService());
driver.Navigate().GoToUrl(url);
Console.WriteLine(driver.PageSource);
Console.Read();
}
private static PhantomJSDriverService GetPhantomJSDriverService()
{
PhantomJSDriverService pds = PhantomJSDriverService.CreateDefaultService();
//設(shè)置代理服務(wù)器地址
//pds.Proxy = $"{ip}:{port}";
//設(shè)置代理服務(wù)器認(rèn)證信息
//pds.ProxyAuthentication = GetProxyAuthorization();
return pds;
}
}
}

第四步:打開(kāi)nuget安裝Selenium.PhantomJS.WebDriver包。

第五步:運(yùn)行??梢钥吹絧hantomjs.exe被自動(dòng)下載了。

好了,這樣就可以開(kāi)始你的數(shù)據(jù)抓取大業(yè)了。
以上就是本文的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,同時(shí)也希望多多支持腳本之家!
相關(guān)文章
C#使用Parallel類(lèi)進(jìn)行多線程編程實(shí)例
這篇文章主要介紹了C#使用Parallel類(lèi)進(jìn)行多線程編程的方法,實(shí)例分析了Parallel類(lèi)的相關(guān)使用技巧,需要的朋友可以參考下2015-06-06
C#/VB.NET 給Excel添加、刪除數(shù)字簽名的方法
這篇文章主要介紹了C#/VB.NET 給Excel添加、刪除數(shù)字簽名的方法,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-11-11
C#實(shí)現(xiàn)子窗體與父窗體通信方法實(shí)例總結(jié)
這篇文章主要介紹了C#實(shí)現(xiàn)子窗體與父窗體通信方法,實(shí)例總結(jié)了常用的四種窗體通信方法,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-09-09
C#訪問(wèn)SQLServer增刪改查代碼實(shí)例
這篇文章主要為大家詳細(xì)介紹了C#訪問(wèn)SQLServer增刪改查代碼實(shí)例,感興趣的小伙伴們可以參考一下2016-08-08
基于不要返回null之EmptyFactory的應(yīng)用詳解
本篇文章對(duì)不要返回null之EmptyFactory進(jìn)行了詳細(xì)的分析介紹,需要的朋友參考下2013-05-05

