欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java使用Tesseract-Ocr識別數(shù)字

 更新時間:2021年04月20日 09:13:56   作者:gcdd1993  
這篇文章主要介紹了Java使用Tesseract-Ocr識別數(shù)字的方法,幫助大家更好的理解和學(xué)習(xí)使用Java,感興趣的朋友可以了解下

前言

Tesseract-Ocr是我在編寫爬蟲項目中,用來識別圖片(不是驗證碼)的本地解決方案(因為客戶不想使用API識別,太貴),識別率目前達到了100%,可以說是相當(dāng)了得,當(dāng)然了,這取決于使用的traineddata。

簡介

Tesseract最初是在1985年至1994年間在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co開發(fā)的,1996年進行了一些更改,移植到Windows,并且隨著C++在1998年興起。2005年Tesseract由惠普開源,然后從2006年至今,由谷歌繼續(xù)開發(fā)。

Tesseract-Ocr并不是一個軟件,它是一個軟件包,包含了一個OCR引擎【libtesseract】和一個命令行程序 【tesseract】。Tesseract 4增加了一個基于OCR引擎的新神經(jīng)網(wǎng)絡(luò)(LSTM),該引擎專注于行級識別,但仍然支持Tesseract 3的傳統(tǒng)Tesseract OCR引擎,該引擎通過識別字符模式來工作。

要啟用與Tesseract 3的兼容性,你需要使用Legacy OCR Engine模式(--oem 0)。它還需要支持傳統(tǒng)引擎的traineddata(訓(xùn)練好的數(shù)據(jù)文件),這些文件可以從tessdata存儲庫的文件獲取。

Tesseract支持識別unicode(UTF-8),可以“開箱即用”識別100多種語言。

Tesseract支持多種輸出格式:純文本,hOCR(HTML),PDF,TSV。主分支還具有ALTO(XML)輸出的實驗支持。

⭐️⭐️⭐️ 具體介紹可以上tesseract-wiki查看。

在Java上使用

創(chuàng)建項目,并引入Jar包

Maven

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.3.1</version>
</dependency>

Gradle

compile 'net.sourceforge.tess4j:tess4j:4.3.1'

導(dǎo)入traineddata

traineddata是使用Tesseract-Ocr訓(xùn)練好的數(shù)據(jù)文件,可以直接使用。這些文件你可以去tessdata存儲庫查找,也可以去谷歌搜索,當(dāng)然了,你也可以自己訓(xùn)練😂。

traineddata通常以*.traineddata命名,其中*指的是支持的語言類型。在這里你可以看到4.0.0版本支持的語言以及traineddata列表。

這次,我們選擇eng.traineddata進行測試。下載eng.traineddata放入/resources/traineddata目錄。

編寫測試代碼

初始化Tesseract引擎

public class TesseractTest {

    private ITesseract tesseract;

    @Before
    public void init() {
        tesseract = new Tesseract();
        System.out.println("tesseract init done...");
    }

}

實際上,上面的代碼是無法正常運行的,因為找不到指定語言版本的traineddata文件。

net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好,在Tesseract構(gòu)造函數(shù)中,沒有提供可選參數(shù)的構(gòu)造器。

public class Tesseract implements ITesseract {

    // Tesseract使用的語言版本,用以選擇traineddata
    private String language = "eng";
    // traineddata目錄,里面放*.traineddata數(shù)據(jù)文件
    private String datapath;
	
    // 省略其他代碼 ...

    public Tesseract() {
        try {
            // 默認從系統(tǒng)環(huán)境變量獲取traineddata目錄
            datapath = System.getenv("TESSDATA_PREFIX");
        } catch (Exception e) {
            // ignore
        } finally {
            if (datapath == null) {
                datapath = "./";
            }
        }
    }
    
    /**
     * Sets language for OCR.
     *
     * @param language the language code, which follows ISO 639-3 standard.
     */
    @Override
    public void setLanguage(String language) {
        this.language = language;
    }
    
    /**
     * Sets path to <code>tessdata</code>.
     *
     * @param datapath the tessdata path to set
     */
    @Override
    public void setDatapath(String datapath) {
        this.datapath = datapath;
    }
    
    // 省略其他代碼 ...
}

所以,我們可以選擇設(shè)置環(huán)境變量TESSDATA_PREFIX為數(shù)據(jù)目錄,或者通過Java編碼的方式來設(shè)置。

tesseract.setLanguage("eng"); // 默認就是eng,你可以選擇其他lang
tesseract.setDatapath(TesseractTest.class.getResource("/traineddata").getPath().substring(1));

OCR識別測試
tesseract提供了一系列doOcr方法的重載,我們可以方便的進行OCR識別。

String doOCR(File imageFile) throws TesseractException;

String doOCR(File imageFile, Rectangle rect) throws TesseractException;

String doOCR(BufferedImage bi) throws TesseractException;

String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;

String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException;

String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;

String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;

可以看出,doOcr方法支持多種圖片識別方式,如圖片文件、多個圖片文件、圖片文件局部處理等等方式。

為了方便測試,我們選取最簡單的圖片文件方式測試。

圖片是個URL鏈接,如下所示

@Test
public void testOcr() throws IOException, TesseractException {
    BufferedImage image = ImageIO.read(new URL("http://static8.ziroom.com/phoenix/pc/images/price/aacd14fbc53a106c7f0f0d667535683as.png"));
    String ocr = tesseract.doOCR(image);
    System.out.println("ocr result : " + ocr);
}

控制臺輸出:

tesseract init done...
ocr result : 2710386495

識別準(zhǔn)確率,主要在于你選擇的訓(xùn)練數(shù)據(jù)文件,我使用的是數(shù)據(jù)文件是這個,對于數(shù)字的準(zhǔn)確率基本上是100%。

異常
如果你遭遇Invalid memory access異常,這是由于找不到對應(yīng)lang的*.traineddata文件,請修改language和datapath。

Invalid memory access
java.lang.Error: Invalid memory access
	at com.sun.jna.Native.invokePointer(Native Method)
	at com.sun.jna.Function.invokePointer(Function.java:470)
	at com.sun.jna.Function.invoke(Function.java:404)
	at com.sun.jna.Function.invoke(Function.java:315)
	at com.sun.jna.Library$Handler.invoke(Library.java:212)
	at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)
	at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)
	at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258)
    ...

訓(xùn)練工具

https://github.com/tesseract-ocr/tesseract/wiki/AddOns

訓(xùn)練數(shù)據(jù)倉庫

  • tessdata_best:基于LSTM引擎的訓(xùn)練數(shù)據(jù),最佳最準(zhǔn)確的
  • tessdata_fast:基于LSTM引擎的訓(xùn)練數(shù)據(jù),快速(精簡)版本
  • tessdata:支持雙引擎(LSTM和傳統(tǒng)引擎),但LSTM訓(xùn)練數(shù)據(jù)不是最新的版本

推薦使用tessdata_best,雖然識別速度相對于tessdata_fast稍慢,但是準(zhǔn)確率可以保證。

參考

tesseract-ocr-wiki

以上就是Java使用Tesseract-Ocr識別數(shù)字的詳細內(nèi)容,更多關(guān)于Java 識別數(shù)字的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • SpringBoot使用自定義json解析器的使用方法

    SpringBoot使用自定義json解析器的使用方法

    本篇文章主要介紹了SpringBoot使用自定義json解析器的使用方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-04-04
  • Java 將 byte[] 轉(zhuǎn)換為 File 對象的具體代碼示例

    Java 將 byte[] 轉(zhuǎn)換為 File 對象的具體代碼示例

    本文介紹Java中將字節(jié)數(shù)組轉(zhuǎn)換為File對象的方法,通過FileOutputStream實現(xiàn),適用于文件上傳下載等場景,提供具體代碼示例,操作簡單實用,感興趣的朋友跟隨小編一起看看吧
    2025-04-04
  • Java在并發(fā)環(huán)境中SimpleDateFormat多種解決方案

    Java在并發(fā)環(huán)境中SimpleDateFormat多種解決方案

    這篇文章主要介紹了Java在并發(fā)環(huán)境中SimpleDateFormat多種解決方案,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-07-07
  • Mybatis返回map集合時,列的順序與select不一致問題

    Mybatis返回map集合時,列的順序與select不一致問題

    這篇文章主要介紹了Mybatis返回map集合時,列的順序與select不一致問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-01-01
  • Java實現(xiàn)兩個日期相減等于天數(shù)

    Java實現(xiàn)兩個日期相減等于天數(shù)

    這篇文章主要介紹了Java兩個日期相減等于天數(shù)的實現(xiàn)方式,本文通過兩種方式結(jié)合實例代碼給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2023-09-09
  • IDEA無法識別相關(guān)module模塊問題的解決過程

    IDEA無法識別相關(guān)module模塊問題的解決過程

    這篇文章主要給大家介紹了關(guān)于IDEA無法識別相關(guān)module模塊問題的解決過程,文中通過圖文介紹的非常詳細,對大家學(xué)習(xí)或者使用IDEA具有一定的參考借鑒價值,需要的朋友可以參考下
    2023-07-07
  • 關(guān)于Spring AOP使用時的一些問題匯總

    關(guān)于Spring AOP使用時的一些問題匯總

    這篇文章主要給大家匯總介紹了關(guān)于Spring AOP使用時的一些問題,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-10-10
  • Java項目命名規(guī)范參考

    Java項目命名規(guī)范參考

    在實際項目開發(fā)中,命名規(guī)范的遵守可以提高代碼的可讀性和可維護性,本文就來介紹一下Java項目命名規(guī)范參考,具有一定的參考價值,感興趣的可以了解一下
    2023-11-11
  • springmvc處理模型數(shù)據(jù)ModelAndView過程詳解

    springmvc處理模型數(shù)據(jù)ModelAndView過程詳解

    這篇文章主要介紹了springmvc處理模型數(shù)據(jù)ModelAndView過程詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-01-01
  • Java abstract class 與 interface對比

    Java abstract class 與 interface對比

    這篇文章主要介紹了 Java abstract class 與 interface對比的相關(guān)資料,需要的朋友可以參考下
    2016-12-12

最新評論