圖片識(shí)別工具Tesseract初探
一、框架介紹
Tesseract 是一款圖片識(shí)別工具,可以抓取圖片中的文字,可以支持多種語(yǔ)言(默認(rèn)是英語(yǔ)),需要下載開(kāi)源文件可以在github上下載,如果知識(shí)應(yīng)用不想太多深究直接在google code里邊搜索下載即可。
二、Tesseract內(nèi)容
Doc:說(shuō)明文檔
Tessdata:存放各種文字庫(kù)(chi_sim.traineddata:中文 等)
Tessseract.exe 即可以啟動(dòng)文件開(kāi)始調(diào)用Tesseract 可以通過(guò)cmd方式調(diào)用,先cd到對(duì)應(yīng)的目錄,然后 輸入 tesseract.exe 圖片名 導(dǎo)出文件名(如:tesseract.exe 1.jpg 1) 就可以把和tesseract同目錄的 1.jpg文件識(shí)別結(jié)果存放在 1.txt文件中。當(dāng)然如果需要支持中文,需要在tessdata中添加 chi_sim.traineddata 文件,
然后 調(diào)用例子:tesseract.exe 1.jpg 1 -L chi_sim 制定是根據(jù)什么文字庫(kù)進(jìn)行識(shí)別。 當(dāng)然圖片地址可以引用全路徑、輸出結(jié)果也可以全路徑如果只是想把Tesseract做為一個(gè)工具做文字解析,并不追求太高成功率使用者,這樣即可滿足需要了,直接通過(guò)CMD調(diào)用exe進(jìn)行執(zhí)行。有需要玩的小伙伴可以直接下載附件 Tesseract_簡(jiǎn)單使用.rar文件
三、.Net項(xiàng)目高級(jí)使用
如果.Net項(xiàng)目需要使用 DLL方式引用進(jìn)行研發(fā),可以下載Tesseract_DLL引用包。
X86和X64是針對(duì)Tesseract關(guān)聯(lián)引用DLL,根據(jù)程序所在系統(tǒng)位數(shù)進(jìn)行自適應(yīng)配置。
liblept168.dll 這個(gè)文件會(huì)在windows server 2003中發(fā)布IIS情況下無(wú)法加載錯(cuò)誤信息: Failed to find library "liblept168.dll" for platform x86. 如果發(fā)布在更高版本系統(tǒng)中即可正常使用Tesseract.DLL即是要添加到對(duì)應(yīng)的項(xiàng)目中的。以下是測(cè)試tesseract.dll 代碼:
using (var engine = new TesseractEngine(Server.MapPath(@"~/tessdata"), "eng", EngineMode.Default)) { // have to load Pix via a bitmap since Pix doesn't support loading a stream. using (var image = new System.Drawing.Bitmap(imageFile.PostedFile.InputStream)) { using (var pix = PixConverter.ToPix(image)) { using (var page = engine.Process(pix)) { meanConfidenceLabel.InnerText = String.Format("{0:P}", page.GetMeanConfidence()); resultText.InnerText = page.GetText(); } } } }
TesseractEngine:構(gòu)造函數(shù)參數(shù)注意事項(xiàng)=》第一個(gè)是字庫(kù)路徑必須使用tessdata結(jié)尾,第二個(gè)如果需要使用chi_sim即中文
以上所述就是本文的全部?jī)?nèi)容了,希望大家能夠喜歡。
- Python實(shí)現(xiàn)基于PIL和tesseract的驗(yàn)證碼識(shí)別功能示例
- python使用Tesseract庫(kù)識(shí)別驗(yàn)證
- python3.5+tesseract+adb實(shí)現(xiàn)西瓜視頻或頭腦王者輔助答題
- Python+Selenium+PIL+Tesseract自動(dòng)識(shí)別驗(yàn)證碼進(jìn)行一鍵登錄
- Java OCR tesseract 圖像智能文字字符識(shí)別技術(shù)實(shí)例代碼
- python下調(diào)用pytesseract識(shí)別某網(wǎng)站驗(yàn)證碼的實(shí)現(xiàn)方法
- Perl使用Tesseract-OCR實(shí)現(xiàn)驗(yàn)證碼識(shí)別教程
- Python3.6使用tesseract-ocr的正確方法
相關(guān)文章
GridView選擇記錄同時(shí)confirm用戶確認(rèn)刪除
confirm用戶確認(rèn)刪除是一個(gè)很實(shí)用的功能,比如可以防止用戶誤操作刪除等等,感興趣的朋友可以了解下,希望本文對(duì)你有所幫助,就當(dāng)鞏固知識(shí)了2013-01-01Asp.Net使用Npoi導(dǎo)入導(dǎo)出Excel的方法
這篇文章主要介紹了Asp.Net使用Npoi導(dǎo)入導(dǎo)出Excel的方法,采用該方法在導(dǎo)出Excel的時(shí)候不需要office組件的支持,而在導(dǎo)入Excel的時(shí)候采用OleDb的方式,需要office組件的支持。是一個(gè)非常實(shí)用的技巧,需要的朋友可以參考下2014-09-09ASP.NET AJAX 1.0 RC開(kāi)發(fā)10分鐘圖解
12月15日,ASP.NET AJAX 1.0 RC版發(fā)布,我下載安裝試用了一下,沒(méi)有寫(xiě)一行代碼,實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的AJAX應(yīng)用,以下為截圖說(shuō)明。2008-03-03把字符串轉(zhuǎn)為HtmlTable演示動(dòng)畫(huà)
怎樣將字符串轉(zhuǎn)為.cs頁(yè)面中的HtmlTable,在論壇上看到了這樣一個(gè)問(wèn)題,想試著把它解決下,感興趣的朋友可以觀看下本文的動(dòng)畫(huà),或許對(duì)你有所幫助2013-03-03asp.net B2B網(wǎng)站對(duì)接支付寶接口
首先,網(wǎng)上購(gòu)物系統(tǒng)必須與支付寶公司簽訂合作協(xié)議,以確保從本購(gòu)物網(wǎng)站上傳到2010-06-06.NET微服務(wù)架構(gòu)CI/CD鏡像自動(dòng)分發(fā)
這篇文章介紹了.NET微服務(wù)架構(gòu)CI/CD實(shí)現(xiàn)鏡像自動(dòng)分發(fā)的方法,對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-01-01讀寫(xiě)xml所有節(jié)點(diǎn)個(gè)人小結(jié) 和 讀取xml節(jié)點(diǎn)的數(shù)據(jù)總結(jié)
讀寫(xiě)xml所有節(jié)點(diǎn)個(gè)人小結(jié) 和 讀取xml節(jié)點(diǎn)的數(shù)據(jù)總結(jié)...2007-03-03通過(guò).NET 6實(shí)現(xiàn)RefreshToken
當(dāng)獲取到的Token過(guò)期以后,我們必須要重新請(qǐng)求認(rèn)證接口以獲取新的Token,為了提升用戶體驗(yàn),我們一般會(huì)利用Refresh Token功能,本文將具體為大家介紹一下如何實(shí)現(xiàn)Refresh Token,感興趣的可以學(xué)習(xí)一下2022-01-01