快捷導(dǎo)航

C#實(shí)現(xiàn)輕松從HTML中提取純文本

更新時間：2024年11月12日 11:06:03 作者：謝.鋒

這篇文章主要為大家詳細(xì)介紹了C#如何實(shí)現(xiàn)輕松從HTML中提取純文本,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下

一.介紹

處理 HTML 內(nèi)容通常需要提取純文本以進(jìn)行處理、分析或顯示，而不會產(chǎn)生 HTML 標(biāo)記的雜亂。在本博客中，我們將探索一種簡單而有效的方法，即使用 C# 中的正則表達(dá)式 (Regex) 來剝離 HTML 標(biāo)記并將 HTML 實(shí)體解碼為純文本。此技術(shù)在讀取網(wǎng)頁抓取內(nèi)容、清理電子郵件格式或為機(jī)器學(xué)習(xí)預(yù)處理準(zhǔn)備文本數(shù)據(jù)等場景中特別有用。

二.問題陳述

HTML 內(nèi)容是為網(wǎng)絡(luò)瀏覽器設(shè)計的，不適用于直接的文本處理。由于 HTML 標(biāo)簽的嵌套和復(fù)雜性質(zhì)，僅提取文本部分可能很棘手。開發(fā)人員需要一種可靠的方法來高效地將 HTML 轉(zhuǎn)換為純文本。

三.解決方案概述

我們將使用 C# Regex.Replace 方法刪除 HTML 標(biāo)簽，并使用 System.Net.WebUtility.HtmlDecode 將 HTML 編碼實(shí)體解碼為其文本等效項。此方法提供了一種從 HTML 中提取干凈文本的快速而準(zhǔn)確的方法。

四.定義文本提取方法

首先，我們將創(chuàng)建一個接受包含 HTML 的字符串并返回清理后的純文本字符串的方法。

代碼演練

using System;
using System.Text.RegularExpressions;

public class Program
{
    public static void Main()
    {
        // 定義一個包含 HTML 內(nèi)容的字符串
        string htmlContent = "<p>Hello <b>World!</b></p>";
        
        // 調(diào)用 ExtractTextFromHtml 方法從 HTML 中提取純文本
        string plainText = ExtractTextFromHtml(htmlContent);
        
        // 輸出提取的純文本內(nèi)容
        Console.WriteLine(plainText); // 輸出: Hello World!
    }

    // 定義一個從 HTML 中提取純文本的靜態(tài)方法
    public static string ExtractTextFromHtml(string html)
    {
        // 如果輸入的 HTML 字符串為空，返回空字符串
        if (html == null)
        {
            return "";
        }

        // 使用正則表達(dá)式替換所有 HTML 標(biāo)簽為一個空格
        string plainText = Regex.Replace(html, "<[^>]+?>", " ");
        
        // 解碼 HTML 實(shí)體并去除前后空格
        plainText = System.Net.WebUtility.HtmlDecode(plainText).Trim();

        // 返回處理后的純文本
        return plainText;
    }
}