欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

tesseract-ocr使用以及訓練方法

 更新時間:2023年04月19日 09:21:47   作者:歐晨eli  
這篇文章主要介紹了tesseract-ocr使用以及訓練方法,結合圖文形式詳細分析了tesseract-ocr基本功能、用法、樣本訓練與糾錯技巧,需要的朋友可以參考下

    本人最近在做字符識別,所以自行在網(wǎng)上尋找方法,接觸到tesseract,自己按照網(wǎng)上方法做的時候,也遇到一些問題,解決了一些。所以我決定寫下我第一個博客,一是方便自己以后查看,更新學習。二是方便和網(wǎng)友交流學習。

Tesseract介紹

         Tesseract是一個開源的OCR(Optical Character Recognition,光學字符識別)引擎,可以識別多種格式的圖像文件并將其轉換成文本,目前已支持60多種語言(包括中文)。 Tesseract最初由HP公司開發(fā),后來由Google維護,目前發(fā)布在Googel Project上。

       安裝Tesseract,從http://code.google.com/p/tesseract-ocr/downloads/list下載Tesseract,3.01上的版本支持中文。安裝后在電腦上會有一個Tesseract-OCR目錄,通過目錄錄下的tesseract.exe程序就可以對圖像的字符進行識別??紤]到萬一有人上不了谷歌,這個Tesseract-OCR文件夾我也上傳了,地址:點擊打開鏈接。文件夾中除了Tesseract的相應文件外,還有一個tesseract-vs2013-include-lib-dll文件,這個是VS2013用來調(diào)用API的配置文件,后面的博客會寫到。打開如圖所示。

使用默認的語言庫識別

     準備一張待識別的圖片,我選取一段《成都》的歌詞。

  接著就可以打開命令行,進入Tesseract-OCR的目錄,輸入:

tesseract.exe gc.jpg result -l chi_sim

 其中result表示輸出結果文件txt名稱,chi_sim表示用以識別的語言文件為英文。執(zhí)行后文件夾中會多一個result.txt。

    效果非常不好,因為很多漢字是左右結構,比如:眼淚。所以我要自己訓練自己的中文庫。

訓練樣本

     訓練樣本需要一個工具,jTessBoxEditor,下載地址:點擊打開鏈接。這個工具是用java開發(fā)的,需要jre7以上的版本支持。   

    1、獲取訓練的圖片,為了方便我使用了原來的圖片一張,樣本當然是越多越好。

    2、合并樣本文件,打開jTessBoxEditor,點開train.bat。在菜單欄中Tools->Merge TIFF。在彈出的窗口中可以選擇多張樣本圖片(網(wǎng)上之前有說要.tif格式的圖片,測試.jpg格式的也行),我這邊就用了一張樣本圖片。

 

       一張或者多張圖片可以合成一張tif文件。

  3、生成box文件, 打開命令行,輸入:

tesseract.exe gc.font.exp1.tif gc.font.exp1 batch.nochop makebox


      生成的BOX文件為gc.font.exp1.box,BOX文件為Tessercat識別出的文字和其坐標。Make BOX的命名的個數(shù)為:

tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox


      其中l(wèi)ang為語言名稱,fontname為字體名稱,num為序號,可以隨便定義。有些博客說對于這個命名無所謂,但是我嘗試到后免出錯了,是tr文件名的問題,在下面我會貼出報錯圖。讀者也可以試試,不知是不是我之前步驟哪里做錯了。
      4、文字矯正,打開jTessBoxEditor工具,打開gc.font.exp1.tif文件(必須將上一步生成的.box和.tif樣本文件放在同一目錄),如下圖所示??梢钥闯鲇行┳址指詈妥R別都不正確,可以通過該工具手動對每張圖片中識別錯誤的字符進行校正。校正完成后保存即可。(注:發(fā)現(xiàn)中文打不上去,在菜單Setting->Font中可以修改,改為宋體即可)

   對于標定的方框以及識別的字符進行修改。

        選擇兩個或兩個以上的框,Merge可進行合并;Split將框進行拆分;Insert插入框,如果圖片上一個框也沒有,那無法進行插入;Delete刪除框。選擇要修改的字符框,在Character中輸入想要修改的字,再點擊齒輪,即可修改。修改后,如下圖所示:

         5、生成.tr文件,在命令行中輸入:

tesseract gc.font.exp1.tif gc.font.exp1 nobatch box.train

   6、計算字符集,從生成的box文件中提取,繼續(xù)輸入:

unicharset_extractor gc.font.exp1.box

 7、生成字體特征文件,在當前文件夾中新建任意名稱的文件,里面格式為:

<span><fontname> <italic> <bold> <fixed> <serif> <fraktur>  </span>

       例如:我建了一個名為font的文件,里面內(nèi)容為:font 0 0 0 0 0 

        這個文件可以是手動生成的txt文件,也可以在在命令行中輸入:

echo font 0 0 0 0 0 >font

        即可。

        8、特征訓練,繼續(xù)在命令行輸入:

mftraining -F font -U unicharset gc.font.exp1.tr

        在這一步我出現(xiàn)了好幾個錯誤,如下圖

       (1)Failed to load unicharset from file uncharset,這是因為剛剛的font的文件,如果是在txt中寫的,一定要寫成font.txt,加上后綴。

   (2)feature training for Tesseract已停止工作。命令行顯現(xiàn):

      Reading num.tr …
      Font id = -1/0, class id = 1/13 on sample 0

      font_id >= 0 && font_id < font_id_map_.SparseSiz..\..\classify\trainingsampleset.cpp, line 622


 這個問題就是上面命名所導致的,所以還是規(guī)范命名。

       9、聚集tesseract識別的訓練文件,命令行輸入:

cntraining gc.font.exp1.tr

    有人會說其他還有一條shapeclustering語句,說下這個步驟可有可無,這個是在3.02中新加的,主要針對印度語,所以我們在做的時候會有一個警告 warning No shape table file present。
        這時候文件夾中會多了四個文件,在unicharset,inttemp,normproto,pfftable文件名前面加上font.。如下圖所示:

      10、最后,合并相關文件,生成字典文件,輸入:

combine_tessdata font.

   所有輸入命令如下圖所示

最終,在當前目錄中會產(chǎn)生一個為font.traineddata文件,將其拷到tessdata文件夾中,再測試一下。

     雖然不是全部識別出來,但是較之前的識別率提高了很多,這個和樣本數(shù)量也是有關系的,而且這句話中左右結構的字特別多,原圖26個字,卻識別出31個字出來了,這個問題,我還沒想到什么方法,單個字訓練?。我也試了其他字符訓練,效果還可以 

PS:tesseract-ocr還可從github下載:https://github.com/tesseract-ocr/

相關文章

  • 22個Python的萬用公式分享

    22個Python的萬用公式分享

    在大家的日常python程序的編寫過程中,都會有自己解決某個問題的解決辦法,或者是在程序的調(diào)試過程中,用來幫助調(diào)試的程序公式。小編通過幾十萬行代碼的總結處理,總結出了22個python萬用公式,可以幫助大家解決在日常的python編程中遇到的大多數(shù)問題,一起來看看吧
    2022-12-12
  • Python利用代理ip實現(xiàn)自動化爬蟲任務管理

    Python利用代理ip實現(xiàn)自動化爬蟲任務管理

    本文主要介紹了Python利用代理ip實現(xiàn)自動化爬蟲任務管理,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2023-06-06
  • Python 探針的實現(xiàn)原理

    Python 探針的實現(xiàn)原理

    本文將簡單講述一下 Python 探針的實現(xiàn)原理。 同時為了驗證這個原理,我們也會一起來實現(xiàn)一個簡單的統(tǒng)計指定函數(shù)執(zhí)行時間的探針程序。
    2016-04-04
  • python 生成器協(xié)程運算實例

    python 生成器協(xié)程運算實例

    下面小編就為大家?guī)硪黄猵ython 生成器協(xié)程運算實例。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-09-09
  • Python使用turtule畫五角星的方法

    Python使用turtule畫五角星的方法

    這篇文章主要介紹了Python使用turtule畫五角星的方法,運行該程序可以看到箭頭間歇移動繪制五角星的效果,涉及Python使用turtle及time模塊繪制圖形的相關技巧,需要的朋友可以參考下
    2015-07-07
  • python使用鄰接矩陣構造圖代碼示例

    python使用鄰接矩陣構造圖代碼示例

    這篇文章主要介紹了python使用鄰接矩陣構造圖代碼示例,具有一定參考價值,需要的朋友可以了解下。
    2017-11-11
  • Python利用numpy實現(xiàn)三層神經(jīng)網(wǎng)絡的示例代碼

    Python利用numpy實現(xiàn)三層神經(jīng)網(wǎng)絡的示例代碼

    這篇文章主要介紹了Python利用numpy實現(xiàn)三層神經(jīng)網(wǎng)絡的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-04-04
  • python pyhs2 的安裝操作

    python pyhs2 的安裝操作

    這篇文章主要介紹了python pyhs2 的安裝操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • Python2 Selenium元素定位的實現(xiàn)(8種)

    Python2 Selenium元素定位的實現(xiàn)(8種)

    這篇文章主要介紹了Python2 Selenium元素定位的實現(xiàn),小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2019-02-02
  • Python實現(xiàn)員工信息管理系統(tǒng)

    Python實現(xiàn)員工信息管理系統(tǒng)

    這篇文章主要為大家詳細介紹了Python實現(xiàn)員工信息管理系統(tǒng),文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-06-06

最新評論