快捷導(dǎo)航

使用Java提取PDF中的文字的三種常見(jiàn)方法

更新時(shí)間：2025年06月30日 09:54:05 作者：2401_89793006

這篇文章主要介紹了Java中提取PDF文本的三種方法：ApachePDFBox（普通PDF,輕量易用）、iText（復(fù)雜格式,功能強(qiáng)大）、TesseractOCR（掃描版,需OCR識(shí)別）,并給出各場(chǎng)景下的推薦選擇,需要的朋友可以參考下

使用 Java 提取 PDF 中的文字

在日常開(kāi)發(fā)中，我們經(jīng)常需要從 PDF 文件中提取文本，比如用于文檔分析、搜索功能、數(shù)據(jù)挖掘等。本篇文章將介紹三種常見(jiàn)的方法：

Apache PDFBox（適用于大部分 PDF）
iText（支持復(fù)雜格式 PDF）
Tesseract OCR（適用于掃描版 PDF）

1. 使用 Apache PDFBox 提取 PDF 文本

1.1 添加 Maven 依賴(lài)

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.27</version>
</dependency>

1.2 代碼示例

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;

public class PDFTextExtractor {
    public static void main(String[] args) {
        String pdfPath = "sample.pdf";  // 替換為你的 PDF 文件路徑
        try (PDDocument document = PDDocument.load(new File(pdfPath))) {
            PDFTextStripper pdfStripper = new PDFTextStripper();
            String text = pdfStripper.getText(document);
            System.out.println("提取的文本內(nèi)容：\n" + text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

1.3 說(shuō)明

PDDocument.load(File)：加載 PDF 文件。
PDFTextStripper.getText(document)：提取文本。
適用于大部分 PDF，但如果 PDF 采用了圖片格式（掃描版），無(wú)法提取。

2. 使用 iText 提取 PDF 文本

2.1 添加 Maven 依賴(lài)

<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itext7-core</artifactId>
    <version>7.1.17</version>
</dependency>

2.2 代碼示例

import com.itextpdf.kernel.pdf.*;
import com.itextpdf.kernel.pdf.canvas.parser.PdfTextExtractor;
import java.io.File;
import java.io.IOException;

public class ITextPDFTextExtractor {
    public static void main(String[] args) {
        String pdfPath = "sample.pdf";  // 替換為你的 PDF 文件路徑
        try (PdfDocument pdfDoc = new PdfDocument(new PdfReader(pdfPath))) {
            StringBuilder extractedText = new StringBuilder();
            for (int i = 1; i <= pdfDoc.getNumberOfPages(); i++) {
                extractedText.append(PdfTextExtractor.getTextFromPage(pdfDoc.getPage(i))).append("\n");
            }
            System.out.println("提取的文本內(nèi)容：\n" + extractedText);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

2.3 說(shuō)明

PdfReader(pdfPath)：加載 PDF 文件。
PdfTextExtractor.getTextFromPage(pdfDoc.getPage(i))：逐頁(yè)提取文本。
適用于大部分 PDF，支持更復(fù)雜的文本解析。

3. 使用 Tesseract OCR 處理掃描版 PDF

如果 PDF 是掃描版（僅包含圖片），需要 OCR 識(shí)別文本。

3.1 添加 Maven 依賴(lài)

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.5</version>
</dependency>

3.2 代碼示例

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;

public class OCRPDFExtractor {
    public static void main(String[] args) throws IOException, TesseractException {
        String pdfPath = "scanned.pdf";  // 替換為你的 PDF 文件路徑
        PDDocument document = PDDocument.load(new File(pdfPath));
        PDFRenderer pdfRenderer = new PDFRenderer(document);
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath("tessdata");  // 設(shè)置 Tesseract 訓(xùn)練數(shù)據(jù)路徑
        tesseract.setLanguage("eng");  // 設(shè)置語(yǔ)言

        StringBuilder extractedText = new StringBuilder();
        for (int i = 0; i < document.getNumberOfPages(); i++) {
            BufferedImage image = pdfRenderer.renderImage(i);
            extractedText.append(tesseract.doOCR(image)).append("\n");
        }
        document.close();
        System.out.println("OCR 提取的文本內(nèi)容：\n" + extractedText);
    }
}

3.3 說(shuō)明

PDFRenderer.renderImage(i)：將 PDF 頁(yè)轉(zhuǎn)換為圖片。
tesseract.doOCR(image)：執(zhí)行 OCR 識(shí)別文本。
適用于無(wú)可選文本的掃描版 PDF。

4. 總結(jié)

方法	適用場(chǎng)景	主要特點(diǎn)
Apache PDFBox	普通 PDF	輕量、易用，適用于大部分 PDF
iText	復(fù)雜格式 PDF	功能強(qiáng)大，適合更復(fù)雜的文本解析
Tesseract OCR	掃描版 PDF	需要 OCR 識(shí)別，適用于無(wú)文本層的 PDF

推薦選擇：