快捷導(dǎo)航

Java使用Tesseract-OCR實(shí)戰(zhàn)教程

更新時(shí)間：2025年02月24日 16:04:57 作者：九轉(zhuǎn)成圣

本文介紹了如何在Java中使用Tesseract-OCR進(jìn)行文本提取,包括Tesseract-OCR的安裝、中文訓(xùn)練庫的配置、依賴庫的引入以及具體的代碼實(shí)現(xiàn),通過這個(gè)過程,我們將演示如何從視頻幀中提取文本

Java使用Tesseract-OCR

光學(xué)字符識別（OCR, Optical Character Recognition）技術(shù)可以將圖像中的文本轉(zhuǎn)換為可編輯的文本。

Tesseract是目前最為流行的開源OCR引擎之一，支持多種語言和高效的文本識別。

本文將詳細(xì)介紹如何在Java中使用Tesseract-OCR進(jìn)行文本提取，包括Tesseract-OCR的安裝、中文訓(xùn)練庫的配置、依賴庫的引入以及具體的代碼實(shí)現(xiàn)。通過這個(gè)過程，我們將演示如何從視頻幀中提取文本。

Tesseract-OCR安裝

首先，我們需要在系統(tǒng)上安裝Tesseract-OCR?？梢酝ㄟ^以下鏈接下載適用于Windows的安裝包：

下載Tesseract-OCR安裝包

下載完成后，運(yùn)行安裝程序并選擇安裝目錄，默認(rèn)下一步安裝即可。

配置中文訓(xùn)練庫

為了使Tesseract能夠識別中文，我們需要下載中文簡體的訓(xùn)練庫文件chi_sim.traineddata，并將其放置在Tesseract的tessdata目錄下。

例如：

makefile
D:\Program Files\Tesseract-OCR\tessdata

可以從以下鏈接下載中文訓(xùn)練庫：

下載中文訓(xùn)練庫

更多訓(xùn)練庫可以在Tesseract官方GitHub倉庫找到。

引入依賴

為了在Java中使用Tesseract，我們需要引入tess4j庫。tess4j是一個(gè)Java的Tesseract API封裝，可以方便地在Java項(xiàng)目中使用Tesseract。此外，為了處理視頻幀，我們還需要javacv庫。

以下是需要在Maven項(xiàng)目中引入的依賴：

```xml
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>5.3.0</version>
</dependency>
<!-- JavaCV: Java interface to OpenCV, FFmpeg, and more -->
<dependency>
    <groupId>org.bytedeco</groupId>
    <artifactId>javacv-platform</artifactId>
    <version>1.5.7</version>
</dependency>

代碼實(shí)現(xiàn)

接下來，我們將實(shí)現(xiàn)一個(gè)Java類VideoTextExtractor，該類用于從視頻中提取文本。

完整代碼如下：

```java
import net.sourceforge.tess4j.TesseractException;
import org.bytedeco.javacv.FFmpegFrameGrabber;
import org.bytedeco.javacv.Frame;
import org.bytedeco.javacv.Java2DFrameUtils;

import javax.imageio.ImageIO;
import java.awt.*;
import java.awt.image.BufferedImage;
import java.io.File;
import java.util.ArrayList;
import java.util.LinkedHashSet;
import java.util.Set;

public class VideoTextExtractor {
    // Tesseract-OCR安裝路徑
    public static final String pathToTessdataFolder = "D:\\Program Files\\Tesseract-OCR\\tessdata\\";
    // 加載視頻
    public static final String pathToVideoFile = "C:\\Users\\lixiewen\\Documents\\oCam\\錄制_2023_05_31_09_39_51_172.mp4";
    // 解析結(jié)果
    public static final String resultFile = "E:\\tmp\\tmp.txt";

    public static void main(String[] args) throws TesseractException {
        extracted();
    }

    private static void extracted() {
        // 設(shè)置Tesseract OCR庫的路徑
        File tessDataFolder = new File(pathToTessdataFolder);
        System.setProperty("TESSDATA_PREFIX", tessDataFolder.getAbsolutePath());
        FFmpegFrameGrabber grabber = new FFmpegFrameGrabber(pathToVideoFile);
        try {
            grabber.start();
            Set<String> set = new LinkedHashSet<>();
            // 遍歷視頻幀
            int lengthInFrames = grabber.getLengthInFrames();
            for (int i = 0; i < lengthInFrames; i++) {
                System.out.println("進(jìn)度 " + i + " / " + lengthInFrames);
                try {
                    Frame frame = grabber.grabImage();
                    if (frame == null) continue;
                    BufferedImage bufferedImage = Java2DFrameUtils.toBufferedImage(frame);

                    // 將幀轉(zhuǎn)換為灰度圖像
                    BufferedImage grayImage = new BufferedImage(bufferedImage.getWidth(), bufferedImage.getHeight(), BufferedImage.TYPE_BYTE_GRAY);
                    Graphics2D graphics = grayImage.createGraphics();
                    graphics.drawImage(bufferedImage, 0, 0, null);
                    graphics.dispose();

                    // 創(chuàng)建臨時(shí)文件保存圖像
                    File tempImageFile = File.createTempFile("frame", ".png");
                    ImageIO.write(grayImage, "png", tempImageFile);

                    Tesseract tesseract = getTesseract(tessDataFolder);
                    String result = tesseract.doOCR(tempImageFile);
                    set.add(result);
                    // 刪除臨時(shí)文件
                    tempImageFile.delete();
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
            File file = new File(resultFile);

            FileUtils.write2File(file, new ArrayList<>(set));

            grabber.stop();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    private static Tesseract getTesseract(File tessDataFolder) {
        // 使用Tesseract OCR進(jìn)行文字識別
        Tesseract tesseract = new Tesseract();
        // 設(shè)置中文訓(xùn)練庫
        tesseract.setLanguage("chi_sim");
        tesseract.setDatapath(tessDataFolder.getAbsolutePath());
        return tesseract;
    }
}

免安裝方式

如果不希望安裝Tesseract-OCR，可以直接在項(xiàng)目中引入訓(xùn)練庫。這種方式適合希望更方便地管理依賴的開發(fā)者。

引入Maven依賴
在代碼中引入訓(xùn)練庫

```java
import net.sourceforge.tess4j.Tesseract;

public class OCRUtil {
    public static ITesseract getTesseract() throws Exception {
        // 使用 Tesseract 識別文本
        ITesseract tesseract = new Tesseract();
        // 設(shè)置訓(xùn)練數(shù)據(jù)文件夾路徑
        tesseract.setDatapath("src/main/resources/traineddata");
        // 設(shè)置為中文簡體
        tesseract.setLanguage("chi_sim");
        return tesseract;
    }
}

優(yōu)化與提升

在實(shí)際應(yīng)用中，我們可以對視頻幀的處理和OCR識別進(jìn)行優(yōu)化，以提高識別效率和準(zhǔn)確性。以下是一些建議：

圖像預(yù)處理：在進(jìn)行OCR識別之前，可以對圖像進(jìn)行去噪、二值化、旋轉(zhuǎn)校正等預(yù)處理，以提高識別率。
多線程處理：對于長時(shí)間的視頻處理，可以使用多線程來提高幀處理速度。
自定義訓(xùn)練數(shù)據(jù)：如果默認(rèn)的訓(xùn)練數(shù)據(jù)效果不理想，可以通過Tesseract的訓(xùn)練工具自定義訓(xùn)練數(shù)據(jù)，以提高特定場景下的識別準(zhǔn)確率。
結(jié)果后處理：OCR識別的文本可能包含一些噪聲字符，可以通過正則表達(dá)式等方法對結(jié)果進(jìn)行清洗和校正。

以下是一個(gè)優(yōu)化后的圖像預(yù)處理示例：

```java
    // 轉(zhuǎn)換為灰度圖像
    BufferedImage grayImage = new BufferedImage(image.getWidth(), image.getHeight(), BufferedImage.TYPE_BYTE_GRAY);
    Graphics2D graphics = grayImage.createGraphics();
    graphics.drawImage(image, 0, 0, null);
    graphics.dispose();

    // 二值化處理
    for (int y = 0; y < grayImage.getHeight(); y++) {
        for (int x = 0; x < grayImage.getWidth(); x++) {
            int rgb = grayImage.getRGB(x, y);
            int gray = (rgb & 0xff);
            gray = gray > 128 ? 255 : 0;
            grayImage.setRGB(x, y, (gray << 16) | (gray << 8) | gray);
        }
    }
    return grayImage;
}