欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

C# 爬蟲簡(jiǎn)單教程

 更新時(shí)間:2020年12月29日 14:37:48   作者:張缺缺  
這篇文章主要介紹了C# 爬蟲的簡(jiǎn)單教程,幫助大家更好的理解和使用c#,感興趣的朋友可以了解下

1、使用第三方類庫(kù) HtmlAgilityPack

官方網(wǎng)址:https://html-agility-pack.net/?z=codeplex、

// From File 從文件獲取html信息
var doc = new HtmlDocument();
doc.Load(filePath);

// From String 從字符串獲取html信息
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web  從網(wǎng)址獲取html信息
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.1、這里介紹一下最后一種用法

var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中我們還可以設(shè)置cookie、headers等信息,來(lái)處理一些特定的網(wǎng)站需求,比如需要登陸等。

1.2 用法解釋

網(wǎng)頁(yè)在你查看網(wǎng)頁(yè)源代碼之后只是一段字符串,而爬蟲所做的就是在這堆字符串中,查詢到我們想要的信息,挑選出來(lái)。
以往的篩選方法:正則 (太麻煩了,寫起來(lái)有些頭疼)
HtmlAgilityPack 支持通過(guò)XPath來(lái)解析我們需要的信息。

1.2.1 在哪里找XPath?

網(wǎng)頁(yè)右鍵檢查

通過(guò)XPath就可以準(zhǔn)確獲取你想要元素的全部信息。

1.2.2 獲取選中Html元素的信息?

獲取選中元素

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

獲取元素信息

htmlnode.InnerText;
htmlnode.InnerHtml;
//根據(jù)屬性取值
htmlnode?.GetAttributeValue("src", "未找到")

2、自己封裝的類庫(kù)

 /// <summary>
  /// 下載HTML幫助類
  /// </summary>
  public static class LoadHtmlHelper
  {
    /// <summary>
    /// 從Url地址下載頁(yè)面
    /// </summary>
    /// <param name="url"></param>
    /// <returns></returns>
    public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
    {
      HtmlWeb web = new HtmlWeb();
       return await
         web?.LoadFromWebAsync(url);
    }

    /// <summary>
    /// 獲取單個(gè)節(jié)點(diǎn)擴(kuò)展方法
    /// </summary>
    /// <param name="htmlDocument">文檔對(duì)象</param>
    /// <param name="xPath">xPath路徑</param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
    {
     return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    /// 獲取多個(gè)節(jié)點(diǎn)擴(kuò)展方法
    /// </summary>
    /// <param name="htmlDocument">文檔對(duì)象</param>
    /// <param name="xPath">xPath路徑</param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
    {
      return htmlDocument?.DocumentNode?.SelectNodes(xPath);
    }

   

    /// <summary>
    /// 獲取多個(gè)節(jié)點(diǎn)擴(kuò)展方法
    /// </summary>
    /// <param name="htmlDocument">文檔對(duì)象</param>
    /// <param name="xPath">xPath路徑</param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectNodes(xPath);
    }


    /// <summary>
    /// 獲取單個(gè)節(jié)點(diǎn)擴(kuò)展方法
    /// </summary>
    /// <param name="htmlDocument">文檔對(duì)象</param>
    /// <param name="xPath">xPath路徑</param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    /// 下載圖片
    /// </summary>
    /// <param name="url">地址</param>
    /// <param name="filpath">文件路徑</param>
    /// <returns></returns>
    public async static ValueTask<bool> DownloadImg(string url ,string filpath)
    {
      HttpClient httpClient = new HttpClient();
      try
      {
        var bytes = await httpClient.GetByteArrayAsync(url);
        using (FileStream fs = File.Create(filpath))
        {
          fs.Write(bytes, 0, bytes.Length);
        }
        return File.Exists(filpath);
      }
      catch (Exception ex)
      {
       
        throw new Exception("下載圖片異常", ex);
      }
      
    }
  }

3、自己寫的爬蟲案例,爬取的網(wǎng)站https://www.meitu131.com/

數(shù)據(jù)存儲(chǔ)層沒有實(shí)現(xiàn),懶得寫了,靠你們嘍,我是數(shù)據(jù)暫時(shí)存在了文件中
GitHub地址:https://github.com/ZhangQueque/quewaner.Crawler.git

以上就是C# 爬蟲簡(jiǎn)單教程的詳細(xì)內(nèi)容,更多關(guān)于c# 爬蟲的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • C#中類的異常處理詳解

    C#中類的異常處理詳解

    大家好,本篇文章主要講的是C#中類的異常處理詳解,感興趣的同學(xué)趕快來(lái)看一看吧,對(duì)你有幫助的話記得收藏一下
    2022-02-02
  • C#隊(duì)列Queue多線程用法實(shí)例

    C#隊(duì)列Queue多線程用法實(shí)例

    這篇文章主要介紹了C#隊(duì)列Queue多線程用法,實(shí)例分析了隊(duì)列的相關(guān)使用技巧,需要的朋友可以參考下
    2015-05-05
  • C#簡(jiǎn)單嵌套flash讀取數(shù)據(jù)的實(shí)現(xiàn)代碼

    C#簡(jiǎn)單嵌套flash讀取數(shù)據(jù)的實(shí)現(xiàn)代碼

    這篇文章主要介紹了C#簡(jiǎn)單嵌套flash讀取數(shù)據(jù)的實(shí)現(xiàn)代碼,有需要的朋友可以參考一下
    2013-11-11
  • C#實(shí)現(xiàn)偽裝文件夾功能

    C#實(shí)現(xiàn)偽裝文件夾功能

    這篇文章主要為大家詳細(xì)介紹了如何利用C#實(shí)現(xiàn)偽裝文件夾的功能,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)C#有一定的幫助,感興趣的小伙伴可以跟隨小編一起了解一下
    2022-12-12
  • C# 根據(jù)字符串生成二維碼的實(shí)例代碼

    C# 根據(jù)字符串生成二維碼的實(shí)例代碼

    這篇文章主要介紹了C# 根據(jù)字符串生成二維碼的實(shí)例,文中示例代碼非常詳細(xì),幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下
    2020-07-07
  • Unity3D中腳本的執(zhí)行順序和編譯順序

    Unity3D中腳本的執(zhí)行順序和編譯順序

    在Unity中可以同時(shí)創(chuàng)建很多腳本,并且可以分別綁定到不同的游戲?qū)ο笊?,它們各自都在自己的生命周期中運(yùn)行。與腳本有關(guān)的也就是編譯和執(zhí)行啦,本文就來(lái)研究一下Unity中腳本的編譯和執(zhí)行順序的問題。
    2014-11-11
  • C#使用時(shí)序數(shù)據(jù)庫(kù)InfluxDB的教程詳解

    C#使用時(shí)序數(shù)據(jù)庫(kù)InfluxDB的教程詳解

    InfluxDB是一個(gè)開源的時(shí)序數(shù)據(jù)庫(kù),可以自動(dòng)處理時(shí)間序列數(shù)據(jù),這篇文章主要為大家詳細(xì)介紹了C#如何使用InfluxDB,感興趣的小伙伴可以跟隨小編一起了解下
    2023-11-11
  • C#操作Excel相關(guān)方法總結(jié)

    C#操作Excel相關(guān)方法總結(jié)

    這篇文章主要介紹了C#操作Excel相關(guān)方法總結(jié),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-07-07
  • C#實(shí)現(xiàn)TreeView節(jié)點(diǎn)拖拽的方法

    C#實(shí)現(xiàn)TreeView節(jié)點(diǎn)拖拽的方法

    這篇文章主要介紹了C#實(shí)現(xiàn)TreeView節(jié)點(diǎn)拖拽的方法,涉及C#針對(duì)TreeView節(jié)點(diǎn)的動(dòng)態(tài)添加及移除技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下
    2015-09-09
  • C# OpenCvSharp實(shí)現(xiàn)通過(guò)特征點(diǎn)匹配圖片

    C# OpenCvSharp實(shí)現(xiàn)通過(guò)特征點(diǎn)匹配圖片

    這篇文章主要為大家詳細(xì)介紹了C#如何結(jié)合OpenCVSharp4實(shí)現(xiàn)通過(guò)特征點(diǎn)匹配圖片,文中的示例代碼簡(jiǎn)潔易懂,具有一定的學(xué)習(xí)價(jià)值,需要的小伙伴可以參考下
    2023-11-11

最新評(píng)論