C# 爬蟲簡(jiǎn)單教程
1、使用第三方類庫(kù) HtmlAgilityPack
官方網(wǎng)址:https://html-agility-pack.net/?z=codeplex、
// From File 從文件獲取html信息 var doc = new HtmlDocument(); doc.Load(filePath); // From String 從字符串獲取html信息 var doc = new HtmlDocument(); doc.LoadHtml(html); // From Web 從網(wǎng)址獲取html信息 var url = "http://html-agility-pack.net/"; var web = new HtmlWeb(); var doc = web.Load(url);
1.1、這里介紹一下最后一種用法
var web = new HtmlWeb(); var doc = web.Load(url);
在 web 中我們還可以設(shè)置cookie、headers等信息,來(lái)處理一些特定的網(wǎng)站需求,比如需要登陸等。
1.2 用法解釋
網(wǎng)頁(yè)在你查看網(wǎng)頁(yè)源代碼之后只是一段字符串,而爬蟲所做的就是在這堆字符串中,查詢到我們想要的信息,挑選出來(lái)。
以往的篩選方法:正則 (太麻煩了,寫起來(lái)有些頭疼)
HtmlAgilityPack 支持通過(guò)XPath來(lái)解析我們需要的信息。
1.2.1 在哪里找XPath?
網(wǎng)頁(yè)右鍵檢查
通過(guò)XPath就可以準(zhǔn)確獲取你想要元素的全部信息。
1.2.2 獲取選中Html元素的信息?
獲取選中元素
var web = new HtmlWeb(); var doc = web.Load(url); var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")
獲取元素信息
htmlnode.InnerText; htmlnode.InnerHtml; //根據(jù)屬性取值 htmlnode?.GetAttributeValue("src", "未找到")
2、自己封裝的類庫(kù)
/// <summary> /// 下載HTML幫助類 /// </summary> public static class LoadHtmlHelper { /// <summary> /// 從Url地址下載頁(yè)面 /// </summary> /// <param name="url"></param> /// <returns></returns> public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url) { HtmlWeb web = new HtmlWeb(); return await web?.LoadFromWebAsync(url); } /// <summary> /// 獲取單個(gè)節(jié)點(diǎn)擴(kuò)展方法 /// </summary> /// <param name="htmlDocument">文檔對(duì)象</param> /// <param name="xPath">xPath路徑</param> /// <returns></returns> public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath) { return htmlDocument?.DocumentNode?.SelectSingleNode(xPath); } /// <summary> /// 獲取多個(gè)節(jié)點(diǎn)擴(kuò)展方法 /// </summary> /// <param name="htmlDocument">文檔對(duì)象</param> /// <param name="xPath">xPath路徑</param> /// <returns></returns> public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath) { return htmlDocument?.DocumentNode?.SelectNodes(xPath); } /// <summary> /// 獲取多個(gè)節(jié)點(diǎn)擴(kuò)展方法 /// </summary> /// <param name="htmlDocument">文檔對(duì)象</param> /// <param name="xPath">xPath路徑</param> /// <returns></returns> public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath) { return htmlNode?.SelectNodes(xPath); } /// <summary> /// 獲取單個(gè)節(jié)點(diǎn)擴(kuò)展方法 /// </summary> /// <param name="htmlDocument">文檔對(duì)象</param> /// <param name="xPath">xPath路徑</param> /// <returns></returns> public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath) { return htmlNode?.SelectSingleNode(xPath); } /// <summary> /// 下載圖片 /// </summary> /// <param name="url">地址</param> /// <param name="filpath">文件路徑</param> /// <returns></returns> public async static ValueTask<bool> DownloadImg(string url ,string filpath) { HttpClient httpClient = new HttpClient(); try { var bytes = await httpClient.GetByteArrayAsync(url); using (FileStream fs = File.Create(filpath)) { fs.Write(bytes, 0, bytes.Length); } return File.Exists(filpath); } catch (Exception ex) { throw new Exception("下載圖片異常", ex); } } }
3、自己寫的爬蟲案例,爬取的網(wǎng)站https://www.meitu131.com/
數(shù)據(jù)存儲(chǔ)層沒有實(shí)現(xiàn),懶得寫了,靠你們嘍,我是數(shù)據(jù)暫時(shí)存在了文件中
GitHub地址:https://github.com/ZhangQueque/quewaner.Crawler.git
以上就是C# 爬蟲簡(jiǎn)單教程的詳細(xì)內(nèi)容,更多關(guān)于c# 爬蟲的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
C#簡(jiǎn)單嵌套flash讀取數(shù)據(jù)的實(shí)現(xiàn)代碼
這篇文章主要介紹了C#簡(jiǎn)單嵌套flash讀取數(shù)據(jù)的實(shí)現(xiàn)代碼,有需要的朋友可以參考一下2013-11-11C#使用時(shí)序數(shù)據(jù)庫(kù)InfluxDB的教程詳解
InfluxDB是一個(gè)開源的時(shí)序數(shù)據(jù)庫(kù),可以自動(dòng)處理時(shí)間序列數(shù)據(jù),這篇文章主要為大家詳細(xì)介紹了C#如何使用InfluxDB,感興趣的小伙伴可以跟隨小編一起了解下2023-11-11C#實(shí)現(xiàn)TreeView節(jié)點(diǎn)拖拽的方法
這篇文章主要介紹了C#實(shí)現(xiàn)TreeView節(jié)點(diǎn)拖拽的方法,涉及C#針對(duì)TreeView節(jié)點(diǎn)的動(dòng)態(tài)添加及移除技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-09-09C# OpenCvSharp實(shí)現(xiàn)通過(guò)特征點(diǎn)匹配圖片
這篇文章主要為大家詳細(xì)介紹了C#如何結(jié)合OpenCVSharp4實(shí)現(xiàn)通過(guò)特征點(diǎn)匹配圖片,文中的示例代碼簡(jiǎn)潔易懂,具有一定的學(xué)習(xí)價(jià)值,需要的小伙伴可以參考下2023-11-11