Java使用Tesseract-Ocr識(shí)別數(shù)字
前言
Tesseract-Ocr是我在編寫爬蟲項(xiàng)目中,用來識(shí)別圖片(不是驗(yàn)證碼)的本地解決方案(因?yàn)榭蛻舨幌胧褂肁PI識(shí)別,太貴),識(shí)別率目前達(dá)到了100%,可以說是相當(dāng)了得,當(dāng)然了,這取決于使用的traineddata。
簡(jiǎn)介
Tesseract最初是在1985年至1994年間在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co開發(fā)的,1996年進(jìn)行了一些更改,移植到Windows,并且隨著C++在1998年興起。2005年Tesseract由惠普開源,然后從2006年至今,由谷歌繼續(xù)開發(fā)。
Tesseract-Ocr并不是一個(gè)軟件,它是一個(gè)軟件包,包含了一個(gè)OCR引擎【libtesseract】和一個(gè)命令行程序 【tesseract】。Tesseract 4增加了一個(gè)基于OCR引擎的新神經(jīng)網(wǎng)絡(luò)(LSTM),該引擎專注于行級(jí)識(shí)別,但仍然支持Tesseract 3的傳統(tǒng)Tesseract OCR引擎,該引擎通過識(shí)別字符模式來工作。
要啟用與Tesseract 3的兼容性,你需要使用Legacy OCR Engine模式(--oem 0)。它還需要支持傳統(tǒng)引擎的traineddata(訓(xùn)練好的數(shù)據(jù)文件),這些文件可以從tessdata存儲(chǔ)庫的文件獲取。
Tesseract支持識(shí)別unicode(UTF-8),可以“開箱即用”識(shí)別100多種語言。
Tesseract支持多種輸出格式:純文本,hOCR(HTML),PDF,TSV。主分支還具有ALTO(XML)輸出的實(shí)驗(yàn)支持。
⭐️⭐️⭐️ 具體介紹可以上tesseract-wiki查看。
在Java上使用
創(chuàng)建項(xiàng)目,并引入Jar包
Maven
<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j --> <dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.3.1</version> </dependency>
Gradle
compile 'net.sourceforge.tess4j:tess4j:4.3.1'
導(dǎo)入traineddata
traineddata是使用Tesseract-Ocr訓(xùn)練好的數(shù)據(jù)文件,可以直接使用。這些文件你可以去tessdata存儲(chǔ)庫查找,也可以去谷歌搜索,當(dāng)然了,你也可以自己訓(xùn)練😂。
traineddata通常以*.traineddata命名,其中*指的是支持的語言類型。在這里你可以看到4.0.0版本支持的語言以及traineddata列表。
這次,我們選擇eng.traineddata進(jìn)行測(cè)試。下載eng.traineddata放入/resources/traineddata目錄。
編寫測(cè)試代碼
初始化Tesseract引擎
public class TesseractTest { private ITesseract tesseract; @Before public void init() { tesseract = new Tesseract(); System.out.println("tesseract init done..."); } }
實(shí)際上,上面的代碼是無法正常運(yùn)行的,因?yàn)檎也坏街付ㄕZ言版本的traineddata文件。
net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好,在Tesseract構(gòu)造函數(shù)中,沒有提供可選參數(shù)的構(gòu)造器。
public class Tesseract implements ITesseract { // Tesseract使用的語言版本,用以選擇traineddata private String language = "eng"; // traineddata目錄,里面放*.traineddata數(shù)據(jù)文件 private String datapath; // 省略其他代碼 ... public Tesseract() { try { // 默認(rèn)從系統(tǒng)環(huán)境變量獲取traineddata目錄 datapath = System.getenv("TESSDATA_PREFIX"); } catch (Exception e) { // ignore } finally { if (datapath == null) { datapath = "./"; } } } /** * Sets language for OCR. * * @param language the language code, which follows ISO 639-3 standard. */ @Override public void setLanguage(String language) { this.language = language; } /** * Sets path to <code>tessdata</code>. * * @param datapath the tessdata path to set */ @Override public void setDatapath(String datapath) { this.datapath = datapath; } // 省略其他代碼 ... }
所以,我們可以選擇設(shè)置環(huán)境變量TESSDATA_PREFIX為數(shù)據(jù)目錄,或者通過Java編碼的方式來設(shè)置。
tesseract.setLanguage("eng"); // 默認(rèn)就是eng,你可以選擇其他lang tesseract.setDatapath(TesseractTest.class.getResource("/traineddata").getPath().substring(1));
OCR識(shí)別測(cè)試
tesseract提供了一系列doOcr方法的重載,我們可以方便的進(jìn)行OCR識(shí)別。
String doOCR(File imageFile) throws TesseractException; String doOCR(File imageFile, Rectangle rect) throws TesseractException; String doOCR(BufferedImage bi) throws TesseractException; String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException; String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException; String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException; String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException; String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;
可以看出,doOcr方法支持多種圖片識(shí)別方式,如圖片文件、多個(gè)圖片文件、圖片文件局部處理等等方式。
為了方便測(cè)試,我們選取最簡(jiǎn)單的圖片文件方式測(cè)試。
圖片是個(gè)URL鏈接,如下所示
@Test public void testOcr() throws IOException, TesseractException { BufferedImage image = ImageIO.read(new URL("http://static8.ziroom.com/phoenix/pc/images/price/aacd14fbc53a106c7f0f0d667535683as.png")); String ocr = tesseract.doOCR(image); System.out.println("ocr result : " + ocr); }
控制臺(tái)輸出:
tesseract init done... ocr result : 2710386495
識(shí)別準(zhǔn)確率,主要在于你選擇的訓(xùn)練數(shù)據(jù)文件,我使用的是數(shù)據(jù)文件是這個(gè),對(duì)于數(shù)字的準(zhǔn)確率基本上是100%。
異常
如果你遭遇Invalid memory access異常,這是由于找不到對(duì)應(yīng)lang的*.traineddata文件,請(qǐng)修改language和datapath。
Invalid memory access java.lang.Error: Invalid memory access at com.sun.jna.Native.invokePointer(Native Method) at com.sun.jna.Function.invokePointer(Function.java:470) at com.sun.jna.Function.invoke(Function.java:404) at com.sun.jna.Function.invoke(Function.java:315) at com.sun.jna.Library$Handler.invoke(Library.java:212) at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source) at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258) ...
訓(xùn)練工具
https://github.com/tesseract-ocr/tesseract/wiki/AddOns
訓(xùn)練數(shù)據(jù)倉庫
- tessdata_best:基于LSTM引擎的訓(xùn)練數(shù)據(jù),最佳最準(zhǔn)確的
- tessdata_fast:基于LSTM引擎的訓(xùn)練數(shù)據(jù),快速(精簡(jiǎn))版本
- tessdata:支持雙引擎(LSTM和傳統(tǒng)引擎),但LSTM訓(xùn)練數(shù)據(jù)不是最新的版本
推薦使用tessdata_best,雖然識(shí)別速度相對(duì)于tessdata_fast稍慢,但是準(zhǔn)確率可以保證。
參考
tesseract-ocr-wiki
以上就是Java使用Tesseract-Ocr識(shí)別數(shù)字的詳細(xì)內(nèi)容,更多關(guān)于Java 識(shí)別數(shù)字的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
SpringBoot獲取配置文件的簡(jiǎn)單實(shí)現(xiàn)方法
這篇文章主要給大家介紹了關(guān)于SpringBoot如何獲取配置文件的簡(jiǎn)單實(shí)現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用Spring Boot具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧2020-05-05Springboot錯(cuò)誤處理機(jī)制實(shí)現(xiàn)原理解析
這篇文章主要介紹了springboot錯(cuò)誤處理機(jī)制實(shí)現(xiàn)原理解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-04-04Mybatis-Plus字段策略FieldStrategy的使用
本文主要介紹了Mybatis-Plus字段策略FieldStrategy的使用,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08JAVA設(shè)計(jì)模式零基礎(chǔ)解析之單例模式的八種方式
設(shè)計(jì)模式(Design pattern)是一套被反復(fù)使用、多數(shù)人知曉的、經(jīng)過分類編目的、代碼設(shè)計(jì)經(jīng)驗(yàn)的總結(jié)。使用設(shè)計(jì)模式是為了可重用代碼、讓代碼更容易被他人理解、保證代碼可靠性2021-10-10SpringBoot實(shí)現(xiàn)自定義指標(biāo)監(jiān)控功能
本文主要介紹了SpringBoot實(shí)現(xiàn)自定義指標(biāo)監(jiān)控功能的實(shí)現(xiàn),,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,感興趣的小伙伴跟著著小編來一起來學(xué)習(xí)吧2024-01-01Spring boot 應(yīng)用實(shí)現(xiàn)動(dòng)態(tài)刷新配置詳解
這篇文章主要介紹了spring boot 配置動(dòng)態(tài)刷新實(shí)現(xiàn)詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2021-09-09