快捷導(dǎo)航

C# 爬蟲簡單教程

更新時間：2020年12月29日 14:37:48 作者：張缺缺

這篇文章主要介紹了C# 爬蟲的簡單教程，幫助大家更好的理解和使用c#，感興趣的朋友可以了解下

1、使用第三方類庫 HtmlAgilityPack

官方網(wǎng)址：https://html-agility-pack.net/?z=codeplex、

// From File 從文件獲取html信息
var doc = new HtmlDocument();
doc.Load(filePath);

// From String 從字符串獲取html信息
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web  從網(wǎng)址獲取html信息
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.1、這里介紹一下最后一種用法

var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中我們還可以設(shè)置cookie、headers等信息，來處理一些特定的網(wǎng)站需求，比如需要登陸等。

1.2 用法解釋

網(wǎng)頁在你查看網(wǎng)頁源代碼之后只是一段字符串，而爬蟲所做的就是在這堆字符串中，查詢到我們想要的信息，挑選出來。
以往的篩選方法：正則（太麻煩了，寫起來有些頭疼）
HtmlAgilityPack 支持通過XPath來解析我們需要的信息。

1.2.1 在哪里找XPath？

網(wǎng)頁右鍵檢查

通過XPath就可以準(zhǔn)確獲取你想要元素的全部信息。

1.2.2 獲取選中Html元素的信息？

獲取選中元素

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

獲取元素信息

htmlnode.InnerText;
htmlnode.InnerHtml;
//根據(jù)屬性取值
htmlnode?.GetAttributeValue("src", "未找到")

2、自己封裝的類庫

 /// <summary>
  /// 下載HTML幫助類
  /// </summary>
  public static class LoadHtmlHelper
  {
    /// <summary>
    /// 從Url地址下載頁面
    /// </summary>
    /// <param name="url"></param>
    /// <returns></returns>
    public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
    {
      HtmlWeb web = new HtmlWeb();
       return await
         web?.LoadFromWebAsync(url);
    }

    /// <summary>
    /// 獲取單個節(jié)點擴展方法
    /// </summary>
    /// <param name="htmlDocument">文檔對象</param>
    /// <param name="xPath">xPath路徑</param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
    {
     return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    /// 獲取多個節(jié)點擴展方法
    /// </summary>
    /// <param name="htmlDocument">文檔對象</param>
    /// <param name="xPath">xPath路徑</param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
    {
      return htmlDocument?.DocumentNode?.SelectNodes(xPath);
    }

   

    /// <summary>
    /// 獲取多個節(jié)點擴展方法
    /// </summary>
    /// <param name="htmlDocument">文檔對象</param>
    /// <param name="xPath">xPath路徑</param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectNodes(xPath);
    }


    /// <summary>
    /// 獲取單個節(jié)點擴展方法
    /// </summary>
    /// <param name="htmlDocument">文檔對象</param>
    /// <param name="xPath">xPath路徑</param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    /// 下載圖片
    /// </summary>
    /// <param name="url">地址</param>
    /// <param name="filpath">文件路徑</param>
    /// <returns></returns>
    public async static ValueTask<bool> DownloadImg(string url ,string filpath)
    {
      HttpClient httpClient = new HttpClient();
      try
      {
        var bytes = await httpClient.GetByteArrayAsync(url);
        using (FileStream fs = File.Create(filpath))
        {
          fs.Write(bytes, 0, bytes.Length);
        }
        return File.Exists(filpath);
      }
      catch (Exception ex)
      {
       
        throw new Exception("下載圖片異常", ex);
      }
      
    }
  }