C#實現(xiàn)從Word文檔和各種Word元素中自動提取文本

更新時間：2025年11月07日 09:42:47 作者：SunnyDays1011

手動提取文本既費時又容易出錯,尤其是在處理較長或復雜的Word文檔時,這篇文章將探討如何使用C# 從Word文檔中提取文本,我們將涵蓋不同方面的內容,希望對大家有所幫助

使用工具
C# 從Word文檔中提取文本
C# 從Word文檔中提取特定章節(jié)的文本
C# 從Word文檔中提取特定段落的文本
C# 從Word文檔中提取特定頁面的文本
C# 從 Word 文檔中提取特定行的文本
C# 從 Word 文檔中提取特定表格的文本
C# 從 Word 文檔提取頁眉和頁腳文本

Word文檔在我們的日常生活中占據(jù)著重要位置，無論是在商業(yè)、教育還是政府工作中，都經(jīng)常需要處理它們。有時，我們需要從這些文檔中提取文本以便在其他地方使用。例如，從法律文件中提取特定章節(jié)進行審查，從報告中提取數(shù)據(jù)以納入演示文稿，或從會議紀要中提取要點與團隊分享。

手動提取文本既費時又容易出錯，尤其是在處理較長或復雜的Word文檔時。自動化這個過程不僅能節(jié)省時間，還能確保準確性。這篇文章將探討如何使用C# 從Word文檔中提取文本。我們將涵蓋不同方面的內容，如提取整個Word文檔的文本、以及提取特定章節(jié)、頁面、段落、行，甚至表格、頁眉和頁腳中的文本。

使用工具

要使用 C# 從 Word 文檔和各種Word元素中提取文本，可以利用 Spire.Doc for .NET 庫。

Spire.Doc for .NET 介紹

Spire.Doc for .NET 是一個功能強大的庫，用于在各種 .NET 框架中處理 Word 文檔，包括 C#、VB.NET、ASP.NET 和 .NET Core。它支持 Word 文件的創(chuàng)建、讀取、編輯、打印和轉換。支持多種 Word 格式，如 DOC、DOCX、DOCM、DOT、DOTX 和 DOTM。此外，它還支持將 Word 文檔轉換為常見格式，如 PDF、RTF、HTML、Text、Image、SVG、ODT、PostScript、PCL 和 XPS。

安裝步驟

安裝 Spire.Doc for .NET 有兩種主要方式：

1. NuGet 安裝

在 Visual Studio 中，右鍵單擊項目中的“解決方案資源管理器”，選擇“管理 NuGet 包”，搜索 Spire.Doc，然后點擊“安裝”?；蛘?，你也可以在“包管理器控制臺”中運行以下命令：

Install-Package Spire.Doc

2. 手動安裝

如果你更喜歡手動安裝，可以從官方網(wǎng)站下載 Spire.Doc 庫。下載后，將 DLL 文件引用添加到項目中。右鍵單擊“解決方案資源管理器”中的“引用”節(jié)點，選擇“添加引用”，瀏覽到下載的 Spire.Doc DLL 的位置，然后將其添加到項目中。

C# 從Word文檔中提取文本

提取Word文檔中的所有文本是文檔處理任務中的常見需求，該需求可以通過Document類的GetText方法來實現(xiàn)，它會將文檔中的所有文本內容返回為字符串。之后，你可以將該字符串的內容寫入文本文件。

實現(xiàn)步驟：

使用Document類打開文檔。
使用Document對象的GetText方法提取所有文本內容。
將提取的文本保存到文本文件中。

以下是使用C# 從Word文檔中提取所有文本的代碼：

using Spire.Doc;
using System.IO;

namespace ExtractTextFromDocument
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打開Word文檔
            Document document = new Document("示例.docx");

            // 提取文檔的文本
            string documentText = document.GetText();

            // 將提取的文本寫入文本文件
            File.WriteAllText("Output/文檔文本.txt", documentText);

            document.Close();
        }
    }
}

C# 從Word文檔中提取特定章節(jié)的文本

Word文檔可能包含多個章節(jié)，每個章節(jié)都有獨特的內容或格式。要從特定章節(jié)提取文本，可以按以下步驟操作：

使用Document類打開文檔。
從Document對象的Sections集合中獲取特定章節(jié)。
遍歷Section對象的Paragraphs集合。
使用Paragraph.Text屬性獲取章節(jié)中每個段落的文本內容。
將提取的內容保存到文本文件中。

以下是使用C# 從Word文檔中提取章節(jié)文本的代碼：

using Spire.Doc;
using Spire.Doc.Documents;
using System.IO;
using System.Text;

namespace ExtractTextFromSection
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打開Word文檔
            Document document = new Document("示例.docx");

            // 獲取文檔中的第一個章節(jié)（可以根據(jù)需要更改索引）
            Section section = document.Sections[0];

            // 創(chuàng)建StringBuilder存儲提取的文本
            StringBuilder sectionText = new StringBuilder();

            // 遍歷章節(jié)中的段落
            foreach (Paragraph paragraph in section.Paragraphs)
            {
                // 將每個段落的文本添加到StringBuilder中
                sectionText.Append(paragraph.Text + "\n");
            }

            // 將StringBuilder中的內容寫入文本文件
            File.WriteAllText("Output/章節(jié)文本.txt", sectionText.ToString());

            document.Close();
        }
    }
}

C# 從Word文檔中提取特定段落的文本

有時，你可能只想從Word文檔中的某一段落提取文本。要實現(xiàn)該功能，可以按照以下步驟操作：

使用Document類打開文檔。
從Document對象的Sections集合中獲取特定章節(jié)。
從Section對象的Paragraphs集合中獲取特定段落。
使用Paragraph.Text屬性獲取該段落的文本內容。
將提取的內容保存到文本文件中。

以下是使用C# 從Word文檔中提取特定段落文本的代碼：

using Spire.Doc;
using Spire.Doc.Documents;
using System.IO;

namespace ExtractTextFromParagraph
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打開Word文檔
            Document document = new Document("示例.docx");

            // 獲取文檔中的第一個章節(jié)（可以根據(jù)需要更改索引）
            Section section = document.Sections[0];

            // 獲取章節(jié)中的第二個段落（可以根據(jù)需要更改索引）
            Paragraph paragraph = section.Paragraphs[1];

            // 提取段落的文本
            string paraText = paragraph.Text;

            // 將提取的文本寫入文本文件
            File.WriteAllText("Output/段落.txt", paraText);

            document.Close();
        }
    }
}

C# 從Word文檔中提取特定頁面的文本

有時候，你可能需要提取 Word 文檔中特定頁面的內容。然而，Word 文檔是基于流的，它并不像 PDF 文件那樣本身有頁面的概念。要進行頁面級文本提取，必須先將 Word 文檔轉換為固定布局。以下是實現(xiàn)步驟：

使用 FixedLayoutDocument 類將 Word 文檔轉換為固定布局文檔。
從 FixedLayoutDocument 對象的 Pages 集合獲取所需頁面。
使用 FixedLayoutPage 對象的 Text 屬性提取頁面文本。
將提取的文本保存到文本文件中。

以下是使用 C# 從 Word 文檔中提取特定頁面文本的實現(xiàn)代碼：

using Spire.Doc;
using Spire.Doc.Pages;
using System.IO;

namespace ExtractTextFromPage
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打開 Word 文檔
            Document document = new Document("示例.docx");

            // 將文檔轉換為固定布局文檔以執(zhí)行頁面級操作
            FixedLayoutDocument fixedLayoutDoc = new FixedLayoutDocument(document);

            // 獲取文檔中的第一頁（可以根據(jù)需要更改索引）
            var page = fixedLayoutDoc.Pages[0];

            // 獲取該頁面的文本
            string pageText = page.Text;

            // 將提取的文本寫入文本文件
            File.WriteAllText("Output/頁面文本.txt", pageText);

            document.Close();
        }
    }
}

C# 從 Word 文檔中提取特定行的文本

在 Word 中，行是文本在頁面或列中的可視化排列單位，并非獨立的結構對象，其顯示方式受段落、換行符和頁面布局的影響。要從 Word 中提取行文本，同樣需要將Word文檔轉換為固定布局。以下是實現(xiàn)步驟：

使用 FixedLayoutDocument 類將 Word 文檔轉換為固定布局文檔。
從 FixedLayoutDocument 對象的 Pages 集合獲取所需頁面。
從頁面的 Columns 集合中獲取特定列（Word文檔可以包含多列），然后從該列的 Lines 集合中獲取特定行。
使用該行的 Text 屬性提取其內容。
將提取的文本保存到文本文件中。

以下是使用 C# 從 Word 文檔中提取特定行文本的實現(xiàn)代碼：

using Spire.Doc;
using Spire.Doc.Documents;
using Spire.Doc.Pages;
using System.IO;
using System.Text;

namespace ExtractTextFromLine
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打開 Word 文檔
            Document document = new Document("示例.docx");

            // 將文檔轉換為固定布局文檔以執(zhí)行頁面級操作
            FixedLayoutDocument fixedLayoutDoc = new FixedLayoutDocument(document);

            // 假設我們要提取第一頁的第一行
            // 獲取第一頁
            var page = fixedLayoutDoc.Pages[0];
            // 獲取第一列
            var column = page.Columns[0];
            // 獲取第一行
            var line = column.Lines[0];

            // 提取該行的文本
            string lineText = line.Text;

            // 將提取的文本寫入文本文件
            File.WriteAllText("Output/行文本.txt", lineText);

            document.Close();
        }
    }
}

C# 從 Word 文檔中提取特定表格的文本

Word 文檔中的表格通過行和列組織信息，使其更易于理解。提取這些表格中的數(shù)據(jù)有助于對這些信息進行進一步分析和處理。以下是提取Word文檔中表格數(shù)據(jù)的實現(xiàn)步驟：

使用Document類打開文檔。
從Document對象的Sections集合中獲取包含表格的章節(jié)。
從Section的 Tables 集合中獲取特定表格。
遍歷表格中的行、單元格和單元格中的段落。
使用 Paragraph.Text 屬性提取每個段落的文本。
將提取的數(shù)據(jù)保存為文本文件，并格式化（例如，使用制表符分隔）。

以下是使用 C# 從 Word 文檔中提取特定表格數(shù)據(jù)的實現(xiàn)代碼：

using Spire.Doc;
using Spire.Doc.Documents;
using System.IO;
using System.Text;

namespace ExtractTextFromTable
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打開 Word 文檔
            Document document = new Document("表格.docx");

            // 獲取文檔中的第一節(jié)
            Section section = document.Sections[0];

            // 獲取該節(jié)中的第一個表格
            Table table = section.Tables[0] as Table;

            // 創(chuàng)建 StringBuilder 用于存儲表格數(shù)據(jù)
            StringBuilder tableData = new StringBuilder();

            // 遍歷表格中的行
            foreach (TableRow row in table.Rows)
            {
                // 遍歷每一行中的單元格
                foreach (TableCell cell in row.Cells)
                {
                    // 遍歷單元格中的段落
                    foreach (Paragraph paragraph in cell.Paragraphs)
                    {
                        // 將每個段落的文本添加到 StringBuilder
                        tableData.Append(paragraph.Text + "\t");
                    }
                }
                tableData.Append("\n");
            }

            // 將 StringBuilder 中的內容寫入文本文件
            File.WriteAllText("Output/表格數(shù)據(jù).txt", tableData.ToString());

            document.Close();
        }
    }
}

C# 從 Word 文檔提取頁眉和頁腳文本

頁眉和頁腳通常包含文檔的標題、元數(shù)據(jù)等附加信息。提取這些信息，有助于更好地理解文檔內容。以下是提取Word文檔頁眉和頁腳文本內容的實現(xiàn)步驟：

使用Document類打開文檔。
從Document對象的Sections集合中獲取特定的章節(jié)。
從Section的HeadersFooters集合中分別獲取 Header 和 Footer 對象。
遍歷 Header 和 Footer 對象中的段落，并使用 Paragraph.Text 屬性提取段落文本。
將提取的文本保存到文本文件中。

以下是使用 C# 從 Word 文檔中提取頁眉和頁腳文本的實現(xiàn)代碼：

using Spire.Doc;
using Spire.Doc.Documents;
using System.IO;
using System.Text;

namespace ExtractTextFromHeaderFooter
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打開 Word 文檔
            Document document = new Document("頁眉頁腳.docx");

            // 獲取文檔中的第一節(jié)
            Section section = document.Sections[0];

            // 獲取該節(jié)的頁眉
            HeaderFooter header = section.HeadersFooters.Header;

            // 獲取該節(jié)的頁腳
            HeaderFooter footer = section.HeadersFooters.Footer;

            // 創(chuàng)建 StringBuilder 用于存儲提取的頁眉和頁腳文本
            StringBuilder headerFooterText = new StringBuilder();
            headerFooterText.Append("頁眉文本:\n");

            // 遍歷頁眉中的段落
            foreach (Paragraph paragraph in header.Paragraphs)
            {
                // 將每個段落的文本添加到 StringBuilder
                headerFooterText.Append(paragraph.Text + "\n");
            }

            headerFooterText.Append("頁腳文本:\n");

            // 遍歷頁腳中的段落
            foreach (Paragraph paragraph in footer.Paragraphs)
            {
                // 將每個段落的文本添加到 StringBuilder
                headerFooterText.Append(paragraph.Text + "\n");
            }

            // 將 StringBuilder 中的內容寫入文本文件
            File.WriteAllText("Output/頁眉頁腳文本.txt", headerFooterText.ToString());

            document.Close();
        }
    }
}

補充：除以上元素外，你還可以從其他Word元素例如批注和文本框中提取文本內容，由于篇幅問題，本文就不進行介紹了。

到此這篇關于C#實現(xiàn)從Word文檔和各種Word元素中自動提取文本的文章就介紹到這了,更多相關C#提取word文本內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

C#鉤子Hook監(jiān)聽鍵盤鼠標事件實現(xiàn)窗體自動關閉
鉤子(Hook)的作用主要體現(xiàn)在監(jiān)視和攔截系統(tǒng)或進程中的各種事件消息,并進行自定義處理,本文主要介紹了C#如何利用鉤子Hook監(jiān)聽鍵盤鼠標事件實現(xiàn)窗體自動關閉功能,感興趣的可以了解下
2025-01-01
C#中無邊框窗體移動的簡單實例
拖動無邊框窗體Form至桌面任何位置，有需要的朋友可以參考一下
2013-08-08
C#使用StreamReader讀取文件的方法
這篇文章主要介紹了C#使用StreamReader讀取文件的方法,涉及C#文件操作的相關技巧,需要的朋友可以參考下
2015-05-05
C# 以MDF文件鏈接數(shù)據(jù)庫的示例代碼
本篇文章主要介紹了C# 以MDF文件鏈接數(shù)據(jù)庫的示例代碼，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-09-09
Unity色子的投擲和點數(shù)的獲得詳析
這篇文章主要給大家介紹了關于Unity色子的投擲和點數(shù)的獲得的相關資料，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2018-10-10
RandomId生成隨機字符串詳解實例
本文主要介紹RandomId 生成隨機字符串的方法，大家參考使用吧
2013-12-12
C#多線程編程中的鎖系統(tǒng)基本用法
這篇文章主要介紹了C#多線程編程中的鎖系統(tǒng)基本用法,本文講解了lock、Monitor、mutex、Semaphore等內容,需要的朋友可以參考下
2015-04-04
經(jīng)典的委托排序(深入分析)
本篇文章是對委托排序進行了詳細的分析介紹，需要的朋友參考下
2013-06-06
C#實現(xiàn)將應用程序設置為開機啟動的方法
這篇文章主要介紹了C#實現(xiàn)將應用程序設置為開機啟動的方法,涉及C#針對注冊表的寫入技巧,具有一定參考借鑒價值,需要的朋友可以參考下
2015-09-09
C#基于UDP實現(xiàn)的P2P語音聊天工具
這篇文章主要是一個應用，使用udp傳送語音和文本等信息。在這個系統(tǒng)中沒有服務端和客戶端，相互通訊都是直接相互聯(lián)系的，能夠很好的實現(xiàn)效果
2015-09-09