腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

opencv+tesseract實現(xiàn)驗證碼識別的示例

更新時間：2022年06月28日 10:48:27 作者：peng_wei_kang

本文主要介紹了opencv+tesseract實現(xiàn)驗證碼識別的示例，文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

一、需要識別的內(nèi)容

需要識別的驗證碼內(nèi)容如下驗證碼下載下載地址。

二、直接調(diào)用tesseract來完成識別（識別率很差）

識別的圖片內(nèi)容為：

在window系統(tǒng)鐘打開cmd命令窗口，執(zhí)行識別命令如下：

tesseract.exe 01.png output.txt -l eng

識別結(jié)果為：519} 該識別準確率遠遠達不到預(yù)期

三、訓(xùn)練數(shù)據(jù)樣本，提升識別率

1、下載10份樣本（樣本數(shù)量越多，識別率越高），然后通過jTessBoxEditor來進行樣本數(shù)據(jù)矯正（該步驟耗時較長）。

2、打開 jTessBoxEditor，將所有的樣本數(shù)據(jù)生成一個總的tif文件（tif就是所有圖片的集合）。操作如下：

1）jTessBoxEditor->Tools->Merge TIFF

2 ）全選所有的樣本文件，之后生成的tif命名為 jtbnum.font.exp0.tif

3）進行數(shù)據(jù)識別調(diào)整，如下圖：

四、生成樣本庫字體

將所有的樣本識別內(nèi)容都調(diào)整正確后（調(diào)整的參數(shù)保存在jtbnum.font.exp0.box文件鐘），我們需要將我們生成的樣本文件封裝成我們的 jtbnum.traineddata 字體庫，生成方式如下:

1)創(chuàng)建 font_properties 文件，內(nèi)容為 font 0 0 0 0 0

2）在同級目錄創(chuàng)建 run.bat 文件內(nèi)容如下

rem 執(zhí)行改批處理前先要目錄下創(chuàng)建font_properties文件  
  
echo Run Tesseract for Training..  
tesseract.exe jtbnum.font.exp0.tif jtbnum.font.exp0 nobatch box.train  
  
echo Compute the Character Set..  
unicharset_extractor.exe jtbnum.font.exp0.box  
mftraining -F font_properties -U unicharset -O jtbnum.unicharset jtbnum.font.exp0.tr  
  
echo Clustering..  
cntraining.exe jtbnum.font.exp0.tr  
  
echo Rename Files..  
 
del jtbnum.normproto
rename normproto jtbnum.normproto
 
del jtbnum.inttemp
rename inttemp jtbnum.inttemp
 
del jtbnum.pffmtable
rename pffmtable jtbnum.pffmtable
 
del jtbnum.shapetable
rename shapetable jtbnum.shapetable
  
echo Create Tessdata..  
combine_tessdata.exe jtbnum. 
 
pause

3）雙擊執(zhí)行 run.bat 文件，系統(tǒng)執(zhí)行完成后，將會生成 jtbnum.traineddata 文件。

4）將 jtbnum.traineddata 拷貝到tesseract安裝目錄下的tessdata文件夾下。

5）測試識別率：

識別的圖片內(nèi)容為：

tesseract.exe 01.png output.txt -l jtbnum

識別結(jié)果為：51915 識別結(jié)果已經(jīng)很準確率，但是驗證碼圖片中的雜質(zhì)沒有清除，導(dǎo)致會識別出多余內(nèi)容來。

五、通過Opencv清除圖片的多余雜質(zhì)（Java實現(xiàn)）

if(!hasLoad){
            System.load(opencvPath+"/build/java/x64/opencv_java440.dll");
            hasLoad = true;
        }
 
        byte [] bytes = Base64Utils.decodeFromString(base64);
        String path = savePath+"/"+System.currentTimeMillis()+".png";
        try {
            OutputStream outputStream = new FileOutputStream(new File(path));
            outputStream.write(bytes);
            outputStream.flush();
            outputStream.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
 
        Mat image0 = Imgcodecs.imread(path);
        Mat image1 = new Mat();
        //灰度處理
        Imgproc.cvtColor(image0, image1, Imgproc.COLOR_BGR2GRAY);
        Imgproc.adaptiveThreshold(image1,image1,255,Imgproc.ADAPTIVE_THRESH_MEAN_C,Imgproc.THRESH_BINARY,11, 2);
        Core.bitwise_not(image1,image1);
        Mat kernel = Imgproc.getStructuringElement(Imgproc.MORPH_RECT, new Size(2, 2), new Point(-1, -1));
        Mat temp = new Mat();
        Imgproc.erode(image1, temp, kernel);
        Imgproc.dilate(temp, temp, kernel);
        String newPath = path.substring(0,path.lastIndexOf(".")) +"_1.png";
        Imgcodecs.imwrite(newPath,temp);

圖片處理結(jié)果如下（雜質(zhì)已經(jīng)清除）:

5）測試識別率：

識別的圖片內(nèi)容為：

tesseract.exe 01.png output.txt -l jtbnum

識別結(jié)果為：5191 識別已經(jīng)很精確

到此這篇關(guān)于opencv+tesseract實現(xiàn)驗證碼識別的示例的文章就介紹到這了,更多相關(guān)opencv tesseract 驗證碼識別內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

opencv+tesseract實現(xiàn)驗證碼識別的示例

目錄

一、需要識別的內(nèi)容

二、直接調(diào)用tesseract來完成識別（識別率很差）

三、訓(xùn)練數(shù)據(jù)樣本，提升識別率

四、生成樣本庫字體

五、通過Opencv清除圖片的多余雜質(zhì)（Java實現(xiàn)）

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

opencv+tesseract實現(xiàn)驗證碼識別的示例

目錄

一、需要識別的內(nèi)容

二、直接調(diào)用tesseract來完成識別（識別率很差）

三、訓(xùn)練數(shù)據(jù)樣本，提升識別率

四、生成樣本庫字體

五、通過Opencv清除圖片的多余雜質(zhì)（Java實現(xiàn)）

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

二、直接調(diào)用tesseract來完成識別（識別率很差）

三、訓(xùn)練數(shù)據(jù)樣本，提升識別率

四、生成樣本庫字體

五、通過Opencv清除圖片的多余雜質(zhì)（Java實現(xiàn)）