欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

SpringBoot 整合Tess4J庫實(shí)現(xiàn)圖片文字識(shí)別案例詳解

 更新時(shí)間:2023年10月13日 14:20:21   作者:程序員濟(jì)癲  
Tess4J是一個(gè)基于Tesseract OCR引擎的Java接口,可以用來識(shí)別圖像中的文本,說白了,就是封裝了它的API,讓Java可以直接調(diào)用,今天給大家分享一個(gè)SpringBoot整合Tess4j庫實(shí)現(xiàn)圖片文字識(shí)別的小案例

前言

今天給大家分享一個(gè)SpringBoot整合Tess4j庫實(shí)現(xiàn)圖片文字識(shí)別的小案例,希望xdm喜歡。

文末有案例代碼的Git地址,可以自己下載了去玩玩兒或繼續(xù)擴(kuò)展也行。

話不多說,開整吧。

什么是Tess4j庫

先簡(jiǎn)單給沒聽過的xdm解釋下,這里要分清楚TesseractTess4j的區(qū)別。

Tesseract是一個(gè)開源的光學(xué)字符識(shí)別(OCR)引擎,它可以將圖像中的文字轉(zhuǎn)換為計(jì)算機(jī)可讀的文本。支持多種語言和書面語言,并且可以在命令行中執(zhí)行。它是一個(gè)流行的開源OCR工具,可以在許多不同的操作系統(tǒng)上運(yùn)行。

Tess4J是一個(gè)基于Tesseract OCR引擎的Java接口,可以用來識(shí)別圖像中的文本,說白了,就是封裝了它的API,讓Java可以直接調(diào)用。

搞清楚這倆東西,就足夠了。

案例

1、引入依賴

既然是SpringBoot,基礎(chǔ)依賴我就不贅述了,這里貼下Tess4J的依賴,是可以用maven下載的。

<!-- tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.4</version>
</dependency>

2、yml配置

這里,我特地把訓(xùn)練數(shù)據(jù)的目錄路徑配置在yml里,后續(xù)可以擴(kuò)展到配置中心。

server:
  port: 8888
# 訓(xùn)練數(shù)據(jù)文件夾的路徑
tess4j:
  datapath: D:/tessdata

然后我解釋下什么是訓(xùn)練數(shù)據(jù)

Tesseract OCR庫通過訓(xùn)練數(shù)據(jù)來學(xué)習(xí)不同語言和字體的特征,以便更好地識(shí)別圖片中的文字。

在安裝Tesseract OCR庫時(shí),通常會(huì)生成一個(gè)包含多個(gè)子文件夾的訓(xùn)練數(shù)據(jù)文件夾,其中每個(gè)子文件夾都包含了特定語言或字體的訓(xùn)練數(shù)據(jù)。

比如我這里是下載后放到了D盤的tessdata目錄下,如圖所示,其實(shí)就是一個(gè).traineddata為后綴的文件,大小約2M多。

如果你沒有特定的訓(xùn)練數(shù)據(jù)需求,使用默認(rèn)的訓(xùn)練數(shù)據(jù)文件即可,我這里就是直接下載默認(rèn)的來用的。

還有一點(diǎn)要注意的是,直接讀resource目錄下的路徑是讀不到的哈,所以我放到了D盤,訓(xùn)練數(shù)據(jù)本身也是更推薦放到獨(dú)立的位置,方便后續(xù)訓(xùn)練數(shù)據(jù)。

3、config配置類

我們新建一個(gè)配置類,初始化一下Tesseract類,交給Spring管理,這樣借用了Spring的單例模式。

package com.example.tesseractocr.config;
import net.sourceforge.tess4j.Tesseract;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
/**
 * @作者: 公眾號(hào)【Java分享客棧】
 * @日期: 2023/10/12 22:58
 * @描述:
 */
@Configuration
public class TesseractOcrConfiguration {
   @Value("${tess4j.datapath}")
   private String dataPath;
   @Bean
   public Tesseract tesseract() {
      Tesseract tesseract = new Tesseract();
      // 設(shè)置訓(xùn)練數(shù)據(jù)文件夾路徑
      tesseract.setDatapath(dataPath);
      // 設(shè)置為中文簡(jiǎn)體
      tesseract.setLanguage("chi_sim");
      return tesseract;
   }
}

4、service實(shí)現(xiàn)

就幾行代碼,非常簡(jiǎn)單。

package com.example.tesseractocr.service;
import lombok.AllArgsConstructor;
import net.sourceforge.tess4j.*;
import org.springframework.stereotype.Service;
import org.springframework.web.multipart.MultipartFile;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;
@Service
@AllArgsConstructor
public class OcrService {
    private final Tesseract tesseract;
   /**
    * 識(shí)別圖片中的文字
    * @param imageFile 圖片文件
    * @return 文字信息
    */
    public String recognizeText(MultipartFile imageFile) throws TesseractException, IOException {
        // 轉(zhuǎn)換
        InputStream sbs = new ByteArrayInputStream(imageFile.getBytes());
        BufferedImage bufferedImage = ImageIO.read(sbs);
        // 對(duì)圖片進(jìn)行文字識(shí)別
        return tesseract.doOCR(bufferedImage);
    }
}

5、新增rest接口

我們新建一個(gè)rest接口,用來測(cè)試效果,使用上傳圖片文件的方式。

package com.example.tesseractocr.controller;
import com.example.tesseractocr.service.OcrService;
import lombok.AllArgsConstructor;
import net.sourceforge.tess4j.TesseractException;
import org.springframework.http.MediaType;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;
import java.io.IOException;
@RequestMapping("/api")
@RestController
@AllArgsConstructor
public class OcrController {
    private final OcrService ocrService;
    @PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
    public String recognizeImage(@RequestParam("file") MultipartFile file) throws TesseractException, IOException {
      // 調(diào)用OcrService中的方法進(jìn)行文字識(shí)別
      return ocrService.recognizeText(file);
    }
}

6、測(cè)試效果

這里我用ApiPost工具來測(cè)試下最終效果

我準(zhǔn)備的一張圖片如下,是從知乎上隨便截取的一張。

我們調(diào)接口試一下,這里要設(shè)置Header的Content-Type,別忘了哈。

這里是body中的參數(shù),我們選擇form-data中的File屬性,表示以上傳文件形式來調(diào)接口。

看下效果,其實(shí)還是挺不錯(cuò)的,我和圖片比對(duì)了一下,基本上都識(shí)別出來了。

相關(guān)地址

1)、Tesseract-ocr官方Github地址:https://github.com/tesseract-ocr/tesseract

2)、Tesseract-ocr安裝下載:https://digi.bib.uni-mannheim.de/tesseract/

PS:這里我沒有用官方Github文檔中給的地址,因?yàn)樘耍伊艘粋€(gè)下載比較快的,你們可以往下拉找到win64位的安裝即可,如果沒有訓(xùn)練需求,不用下也可以)

3)、訓(xùn)練文件:https://digi.bib.uni-mannheim.de/tesseract/tessdata_fast/

PS:在2)的路徑下,有一個(gè)tessdata_fast目錄,點(diǎn)進(jìn)去就能直接下載到默認(rèn)訓(xùn)練文件,這種比較簡(jiǎn)便,省去了前面安裝下載的過程。

4)、案例代碼:https://gitee.com/fangfuji/java-share

PS:代碼放在Gitee上,在同名博文目錄里面,包含代碼+安裝文件+訓(xùn)練文件。

到此這篇關(guān)于SpringBoot 整合 Tess4J 實(shí)現(xiàn)圖片文字識(shí)別 的文章就介紹到這了,更多相關(guān)SpringBoot Tess4J識(shí)別圖片文字內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • java 中同步方法和同步代碼塊的區(qū)別詳解

    java 中同步方法和同步代碼塊的區(qū)別詳解

    這篇文章主要介紹了java 中同步方法和同步代碼塊的區(qū)別是什么的相關(guān)資料,需要的朋友可以參考下
    2017-02-02
  • Spring用三級(jí)緩存處理循環(huán)依賴的方法詳解

    Spring用三級(jí)緩存處理循環(huán)依賴的方法詳解

    這篇文章主要介紹了Spring用三級(jí)緩存處理循環(huán)依賴的方法,在Spring?框架中,依賴注入是其核心特性之一,它允許對(duì)象之間的依賴關(guān)系在運(yùn)行時(shí)動(dòng)態(tài)注入,然而,當(dāng)多個(gè)Bean之間的依賴關(guān)系形成一個(gè)閉環(huán)時(shí),就會(huì)出現(xiàn)循環(huán)依賴問題,本文就為解決此問題,需要的朋友可以參考下
    2025-02-02
  • Solr通過特殊字符分詞實(shí)現(xiàn)自定義分詞器詳解

    Solr通過特殊字符分詞實(shí)現(xiàn)自定義分詞器詳解

    最近因?yàn)楣ぷ鞯男枰鲆粋€(gè)分詞器,通過查找相關(guān)的資料最終用solr實(shí)現(xiàn)了,下面這篇文章主要給大家介紹了關(guān)于Solr通過特殊字符分詞實(shí)現(xiàn)自定義分詞器的相關(guān)資料,需要的朋友可以參考借鑒,下面隨著小編來一起看看吧。
    2017-09-09
  • Spring?Security+JWT如何實(shí)現(xiàn)前后端分離權(quán)限控制

    Spring?Security+JWT如何實(shí)現(xiàn)前后端分離權(quán)限控制

    本篇將手把手教你用?Spring?Security?+?JWT?搭建一套完整的登錄認(rèn)證與權(quán)限控制體系,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2025-04-04
  • IntelliJ IDEA中查看當(dāng)前類的所有繼承關(guān)系圖

    IntelliJ IDEA中查看當(dāng)前類的所有繼承關(guān)系圖

    今天小編就為大家分享一篇關(guān)于IntelliJ IDEA中查看當(dāng)前類的所有繼承關(guān)系圖,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧
    2018-10-10
  • Java實(shí)現(xiàn)在線聊天室(層層遞進(jìn))

    Java實(shí)現(xiàn)在線聊天室(層層遞進(jìn))

    這篇文章主要為大家詳細(xì)介紹了Java實(shí)現(xiàn)在線聊天室,層層遞進(jìn),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-09-09
  • Springboot整合Redis最簡(jiǎn)單例子分享

    Springboot整合Redis最簡(jiǎn)單例子分享

    這篇文章主要介紹了Springboot整合Redis最簡(jiǎn)單例子分享,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-10-10
  • Java lombok中@Accessors注解三個(gè)屬性的作用

    Java lombok中@Accessors注解三個(gè)屬性的作用

    這篇文章主要介紹了Java?lombok的@Accessors注解屬性解析,該注解主要作用是:當(dāng)屬性字段在生成?getter?和?setter?方法時(shí),做一些相關(guān)的設(shè)置,需要的朋友可以參考下
    2023-05-05
  • 詳解JAVA如何實(shí)現(xiàn)樂觀鎖以及CAS機(jī)制

    詳解JAVA如何實(shí)現(xiàn)樂觀鎖以及CAS機(jī)制

    悲觀鎖和樂觀鎖其實(shí)本質(zhì)都是一種思想,在JAVA中對(duì)于悲觀鎖的實(shí)現(xiàn)大家可能都很了解,可以通過synchronized、ReentrantLock加鎖實(shí)現(xiàn),本文不展開講解了。那么樂觀鎖在JAVA中是如何實(shí)現(xiàn)的呢?底層的實(shí)現(xiàn)機(jī)制又是什么呢?本文就來和大家詳細(xì)講講
    2022-12-12
  • java 相交鏈表的實(shí)現(xiàn)示例

    java 相交鏈表的實(shí)現(xiàn)示例

    本文主要介紹了java 相交鏈表的實(shí)現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-11-11

最新評(píng)論