使用C#高效解析HTML的實戰(zhàn)指南

更新時間：2025年01月26日 11:14:05 作者：code_shenbing

在網頁開發(fā)和數(shù)據(jù)處理的場景中,經常需要從 HTML 文檔里提取有用的信息,C# 作為一門強大的編程語言,提供了豐富的工具和庫來實現(xiàn) HTML 的解析,這篇博客就帶你深入了解如何使用 C# 高效地解析 HTML

一、為什么要在 C# 中解析 HTML

在實際項目中，無論是進行網頁數(shù)據(jù)采集、網頁內容分析，還是開發(fā)網頁爬蟲，都離不開對 HTML 的解析。例如，電商平臺可能需要從競品網站上采集商品價格和庫存信息；新聞聚合應用可能需要從各大新聞網站提取文章標題、正文和發(fā)布時間。通過 C# 解析 HTML，能夠自動化地獲取這些關鍵數(shù)據(jù)，大大提高工作效率。

二、C# 解析 HTML 的常用工具和庫

HtmlAgilityPack：這是 C# 中最常用的 HTML 解析庫之一，它提供了簡單易用的 API，能夠將 HTML 文檔解析成一個 DOM（文檔對象模型）樹，方便開發(fā)者通過 XPath 或 CSS 選擇器來提取節(jié)點和屬性。

AngleSharp：另一個功能強大的 HTML 解析庫，支持現(xiàn)代的 HTML5 標準，并且在性能上表現(xiàn)出色。它同樣可以構建 DOM 樹，同時還提供了豐富的事件處理機制，方便處理復雜的網頁結構。

三、使用 HtmlAgilityPack 解析 HTML

安裝庫：最簡單的方式是通過 NuGet 包管理器。在 Visual Studio 中，右鍵點擊項目，選擇 “管理 NuGet 程序包”，搜索 “HtmlAgilityPack” 并安裝。

基本解析示例：下面是一個使用 HtmlAgilityPack 從 HTML 字符串中提取所有鏈接的代碼示例：

 
using HtmlAgilityPack;
 
class Program
 
{
 
static void Main()
 
{
 
string html = "<html><body><a >Example Link</a></body></html>";
 
HtmlDocument doc = new HtmlDocument();
 
doc.LoadHtml(html);
 
HtmlNodeCollection links = doc.DocumentNode.SelectNodes("http://a");
 
if (links!= null)
 
{
 
foreach (HtmlNode link in links)
 
{
 
string href = link.GetAttributeValue("href", "");
 
Console.WriteLine($"Link: {href}");
 
}
 
}
 
}
 
}

在這段代碼中，首先創(chuàng)建了一個HtmlDocument對象并加載 HTML 字符串。然后使用SelectNodes方法結合 XPath 表達式//a來選取所有的<a>標簽節(jié)點，最后遍歷這些節(jié)點并提取href屬性的值。

提取復雜結構的數(shù)據(jù)：假設我們要從一個電商網頁中提取商品信息，包括商品名稱、價格和圖片鏈接。HTML 結構可能如下：

 
<div class="product">
 
<img src="product1.jpg" alt="Product Name">
 
<h2 class="product-name">Product 1</h2>
 
<span class="price">$19.99</span>
 
</div>

使用 HtmlAgilityPack 提取數(shù)據(jù)的代碼如下：

 
using HtmlAgilityPack;
 
class Product
 
{
 
public string Name { get; set; }
 
public string Price { get; set; }
 
public string ImageUrl { get; set; }
 
}
 
class Program
 
{
 
static void Main()
 
{
 
string html = "<div class='product'><img src='product1.jpg' alt='Product Name'><h2 class='product-name'>Product 1</h2><span class='price'>$19.99</span></div>";
 
HtmlDocument doc = new HtmlDocument();
 
doc.LoadHtml(html);
 
HtmlNode productNode = doc.DocumentNode.SelectSingleNode("http://div[@class='product']");
 
if (productNode!= null)
 
{
 
Product product = new Product();
 
HtmlNode imgNode = productNode.SelectSingleNode(".//img");
 
if (imgNode!= null)
 
{
 
product.ImageUrl = imgNode.GetAttributeValue("src", "");
 
}
 
HtmlNode nameNode = productNode.SelectSingleNode(".//h2[@class='product-name']");
 
if (nameNode!= null)
 
{
 
product.Name = nameNode.InnerText;
 
}
 
HtmlNode priceNode = productNode.SelectSingleNode(".//span[@class='price']");
 
if (priceNode!= null)
 
{
 
product.Price = priceNode.InnerText;
 
}
 
Console.WriteLine($"Name: {product.Name}, Price: {product.Price}, ImageUrl: {product.ImageUrl}");
 
}
 
}
 
}

這里使用SelectSingleNode方法結合 XPath 表達式來精確選取需要的節(jié)點，并提取相應的屬性和文本內容。

四、使用 AngleSharp 解析 HTML

安裝庫：同樣通過 NuGet 包管理器搜索并安裝 “AngleSharp”。

基本解析示例：使用 AngleSharp 提取所有鏈接的代碼如下：

 
using AngleSharp;
 
using System.Threading.Tasks;
 
class Program
 
{
 
static async Task Main()
 
{
 
string html = "<html><body><a >Example Link</a></body></html>";
 
var context = BrowsingContext.New();
 
var document = await context.OpenAsync(req => req.Content(html));
 
var links = document.QuerySelectorAll("a");
 
foreach (var link in links)
 
{
 
string href = link.GetAttribute("href");
 
Console.WriteLine($"Link: {href}");
 
}
 
}
 
}

在這段代碼中，通過BrowsingContext.New()創(chuàng)建一個瀏覽上下文，然后使用OpenAsync方法加載 HTML 字符串并得到一個IDocument對象。接著使用QuerySelectorAll方法結合 CSS 選擇器來選取所有的<a>標簽，最后提取href屬性。