快捷導(dǎo)航

Java自動(dòng)化實(shí)現(xiàn)查找并替換PDF中的文本

更新時(shí)間：2025年08月20日 08:14:38 作者：用戶033212666367

這篇文章主要為大家詳細(xì)介紹了如何使用強(qiáng)大的 Java PDF 處理庫 Spire.PDF for Java,輕松實(shí)現(xiàn) PDF 文檔中的文本查找與替換功能,需要的小伙伴可以了解下

在日常的軟件開發(fā)和數(shù)據(jù)處理中，PDF 文檔因其跨平臺(tái)、格式固定的特性而被廣泛應(yīng)用。然而，當(dāng)我們需要對(duì)大量 PDF 文檔中的特定文本進(jìn)行批量修改、更新或敏感信息脫敏時(shí)，手動(dòng)操作無疑是低效且易出錯(cuò)的。這時(shí)，程序化的解決方案就顯得尤為重要。

本文將深入探討如何使用強(qiáng)大的 Java PDF 處理庫 Spire.PDF for Java，輕松實(shí)現(xiàn) PDF 文檔中的文本查找與替換功能。無論您是需要更新文檔中的版本號(hào)、替換公司名稱，還是利用正則表達(dá)式進(jìn)行高級(jí)模式匹配替換，Spire.PDF 都能提供簡潔高效的解決方案。

Spire.PDF for Java 庫介紹與安裝

Spire.PDF for Java 是一個(gè)功能全面且易于使用的 Java PDF API，它允許開發(fā)者在 Java 應(yīng)用程序中創(chuàng)建、讀取、寫入、編輯和轉(zhuǎn)換 PDF 文檔，而無需安裝 Adobe Acrobat。其主要特點(diǎn)包括：

功能強(qiáng)大：支持文本、圖片、表格、附件、書簽、表單等多種元素的處理。
性能優(yōu)越：針對(duì)大數(shù)據(jù)量和高并發(fā)場景進(jìn)行了優(yōu)化。
易于集成：通過 Maven 或 Gradle 即可輕松引入項(xiàng)目。
API 友好：提供直觀的 API 接口，降低學(xué)習(xí)曲線。

安裝配置：

您可以通過 Maven 將 Spire.PDF for Java 庫添加到您的項(xiàng)目中。

Maven 配置：

在 pom.xml 文件的標(biāo)簽中添加以下依賴：

  <repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.com/nexus/content/groups/public/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.pdf</artifactId>
        <version>11.8.0</version>
    </dependency>
</dependencies>

在特定頁面查找并替換文本

有時(shí)，我們只需要修改 PDF 文檔中某個(gè)特定頁面的內(nèi)容。Spire.PDF 提供了直接針對(duì)頁面進(jìn)行文本替換的功能。

以下代碼示例演示了如何加載一個(gè) PDF 文檔，然后將文檔第一頁中的“荷塘”替換為“池塘”：

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.texts.PdfTextReplaceOptions;
import com.spire.pdf.texts.PdfTextReplacer;
import com.spire.pdf.texts.ReplaceActionType;
import java.util.EnumSet;

public class ReplaceTextInPage
{

    public static void main(String[] args)
    {

        // 創(chuàng)建一個(gè)PdfDocument對(duì)象
        PdfDocument doc = new PdfDocument();

        // 加載一個(gè)PDF文件
        doc.loadFromFile("in.pdf");

        // 創(chuàng)建一個(gè)PdfTextReplaceOptions對(duì)象
        PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();

        // 指定文本替換的選項(xiàng)
        textReplaceOptions.setReplaceType(EnumSet.of(ReplaceActionType.IgnoreCase));
        textReplaceOptions.setReplaceType(EnumSet.of(ReplaceActionType.WholeWord));

        // 獲取特定的頁面
        PdfPageBase page = doc.getPages().get(0);

        // 根據(jù)頁面創(chuàng)建一個(gè)PdfTextReplacer對(duì)象
        PdfTextReplacer textReplacer = new PdfTextReplacer(page);

        // 設(shè)置替換選項(xiàng)
        textReplacer.setOptions(textReplaceOptions);

        // 將所有目標(biāo)文本實(shí)例替換為新文本
        textReplacer.replaceAllText("荷塘", "池塘");

        // 將文檔保存到不同的PDF文件
        doc.saveToFile("out.pdf");

        // 釋放資源
        doc.dispose();
    }
}

在整個(gè)文檔查找并替換文本

當(dāng)您需要對(duì) PDF 文檔中的所有匹配文本進(jìn)行替換時(shí)，Spire.PDF 提供了直接的全局替換方法，無需手動(dòng)遍歷每一頁。

以下代碼將查找整個(gè) PDF 文檔中所有出現(xiàn)的“荷塘”，并將其替換為“池塘”：

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.texts.PdfTextReplaceOptions;
import com.spire.pdf.texts.PdfTextReplacer;
import com.spire.pdf.texts.ReplaceActionType;
import java.util.EnumSet;

public class ReplaceTextInDocument 
{

     public static void main(String[] args) 
     {
    // 創(chuàng)建一個(gè)PdfDocument對(duì)象
    PdfDocument doc = new PdfDocument();

    // 加載一個(gè)PDF文件
    doc.loadFromFile("in.pdf");

    // 創(chuàng)建一個(gè)PdfTextReplaceOptions對(duì)象
    PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();

    // 指定文本替換的選項(xiàng)
    textReplaceOptions.setReplaceType(EnumSet.of(ReplaceActionType.IgnoreCase));
    textReplaceOptions.setReplaceType(EnumSet.of(ReplaceActionType.WholeWord));

    //遍歷PDF文檔所有頁面
    for (int i = 0; i < doc.getPages().getCount(); i++)
        {
            PdfPageBase page = doc.getPages().get(i);

      // 根據(jù)頁面創(chuàng)建一個(gè)PdfTextReplacer對(duì)象
      PdfTextReplacer textReplacer = new PdfTextReplacer(page);

      // 設(shè)置替換選項(xiàng)
      textReplacer.setOptions(textReplaceOptions);

      // 將所有目標(biāo)文本實(shí)例替換為新文本
      textReplacer.replaceAllText("荷塘", "池塘");
        }

    // 將文檔保存到不同的PDF文件
    doc.saveToFile("out.pdf");

    // 釋放資源
    doc.dispose();
    }
}

查找并替換第一個(gè)匹配的文本

在某些場景下，我們可能只希望替換第一個(gè)找到的匹配項(xiàng)，而不是所有匹配項(xiàng)。Spire.PDF 也提供了這樣的功能。

下面的示例展示了如何只替換文檔中第一次出現(xiàn)的“荷塘”為“池塘”：

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.texts.PdfTextReplaceOptions;
import com.spire.pdf.texts.PdfTextReplacer;
import com.spire.pdf.texts.ReplaceActionType;
import java.util.EnumSet;

public class ReplaceFirstInstance {

    public static void main(String[] args)
    {

    // 創(chuàng)建一個(gè)PdfDocument對(duì)象
    PdfDocument doc = new PdfDocument();

    // 加載一個(gè)PDF文件
    doc.loadFromFile("in.pdf");

    // 創(chuàng)建一個(gè)PdfTextReplaceOptions對(duì)象
    PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();

    // 指定文本替換的選項(xiàng)
    textReplaceOptions.setReplaceType(EnumSet.of(ReplaceActionType.IgnoreCase));
        textReplaceOptions.setReplaceType(EnumSet.of(ReplaceActionType.WholeWord));

    // 獲取特定頁面
    PdfPageBase page = doc.getPages().get(0);

    // 根據(jù)頁面創(chuàng)建一個(gè)PdfTextReplacer對(duì)象
    PdfTextReplacer textReplacer = new PdfTextReplacer(page);

    // 設(shè)置替換選項(xiàng)
    textReplacer.setOptions(textReplaceOptions);

        // 將目標(biāo)文本的第一個(gè)實(shí)例替換為新文本
    textReplacer.replaceText("荷塘", "池塘");

    // 將文檔保存到不同的PDF文件
    doc.saveToFile("out.pdf");

    // 釋放資源
    doc.dispose();
    }
}

使用正則表達(dá)式查找并替換文本

正則表達(dá)式是進(jìn)行高級(jí)文本匹配和替換的強(qiáng)大工具，它允許您定義復(fù)雜的文本模式。Spire.PDF for Java 完全支持使用正則表達(dá)式進(jìn)行文本的查找與替換，極大地增強(qiáng)了靈活性。

以下示例演示了如何使用正則表達(dá)式查找所有形如“荷+任意一個(gè)字符+月”的詞組，并將其替換為“池塘花：

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.texts.PdfTextReplaceOptions;
import com.spire.pdf.texts.PdfTextReplacer;
import com.spire.pdf.texts.ReplaceActionType;
import java.util.EnumSet;

public class ReplaceBasedOnRegularExpression {

    public static void main(String[] args) {

    // 創(chuàng)建一個(gè)PdfDocument對(duì)象
    PdfDocument doc = new PdfDocument();

    // 加載一個(gè)PDF文件
    doc.loadFromFile("in.pdf");

    // 創(chuàng)建一個(gè)PdfTextReplaceOptions對(duì)象
    PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();

        // 將替換類型設(shè)置為Regex
        textReplaceOptions.setReplaceType(EnumSet.of(ReplaceActionType.Regex));

    // 獲取特定頁面
    PdfPageBase page = doc.getPages().get(0);

    // 根據(jù)頁面創(chuàng)建一個(gè)PdfTextReplacer對(duì)象
    PdfTextReplacer textReplacer = new PdfTextReplacer(page);

    // 設(shè)置替換選項(xiàng)
    textReplacer.setOptions(textReplaceOptions);

    // 指定正則表達(dá)式
    String regularExpression = "荷.月";

    // 將所有匹配正則表達(dá)式的目標(biāo)文本替換為新文本
    textReplacer.replaceAllText(regularExpression, "池塘花");

    // 將文檔保存到不同的PDF文件
    doc.saveToFile("out.pdf");

    // 釋放資源
    doc.dispose();
    }
}

正則表達(dá)式解釋：

Version ：匹配字面量 "Version"。
\d+：匹配一個(gè)或多個(gè)數(shù)字 (\d 表示數(shù)字，+ 表示一個(gè)或多個(gè))。
.: 匹配字面量點(diǎn)號(hào) (. 在正則表達(dá)式中有特殊含義，所以需要 \ 進(jìn)行轉(zhuǎn)義)。

通過結(jié)合正則表達(dá)式，您可以實(shí)現(xiàn)更加精細(xì)和智能的文本替換邏輯，例如替換特定格式的日期、郵箱、電話號(hào)碼等。

總結(jié)

在本文中，我們展示了在 Java 應(yīng)用中如何實(shí)現(xiàn) PDF 文本的查找與替換，包括指定頁面替換、全局替換以及基于正則表達(dá)式的靈活匹配。這類功能不僅能夠簡化文檔處理流程，也為更復(fù)雜的任務(wù)（如創(chuàng)建、編輯、格式轉(zhuǎn)換或圖表與圖像的提?。┨峁┝怂悸放c實(shí)踐參考。掌握這些方法，將幫助開發(fā)者更高效地應(yīng)對(duì)多樣化的 PDF 處理需求。

以上就是Java自動(dòng)化實(shí)現(xiàn)查找并替換PDF中的文本的詳細(xì)內(nèi)容，更多關(guān)于Java查找并替換PDF文本的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: