欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

如何使用Python進(jìn)行OCR識(shí)別圖片中的文字

 更新時(shí)間:2019年04月01日 08:40:44   作者:thomaszdxsn  
這篇文章主要介紹了使用Python進(jìn)行OCR識(shí)別圖片中的文字 ,本文通過(guò)實(shí)例代碼加文字說(shuō)明的形式給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下

朋友需要一個(gè)工具,將圖片中的文字提取出來(lái)。我?guī)退诰W(wǎng)上找了一些OCR的應(yīng)用,都不好用。所以準(zhǔn)備自己研究,寫一個(gè)Web APP供他使用。

OCR1,全稱Optical character recognition,或者optical character reader,中文譯名叫做光學(xué)文字識(shí)別。它是把圖像文件中的手寫文本,打印文本轉(zhuǎn)換為機(jī)器編碼文本的一種方法。

OCR技術(shù)廣泛用于識(shí)別打印紙張中的文字?jǐn)?shù)據(jù) -- 比如護(hù)照,支票,銀行聲明,收據(jù),統(tǒng)計(jì)表單,郵件等。OCR的早期版本,需要對(duì)圖片中的每個(gè)文字都進(jìn)行訓(xùn)練,一次只能作用于一種字體。高級(jí)的版本增加了很大的識(shí)別率,可以同時(shí)識(shí)別現(xiàn)在很多流行的字體,支持不同種類格式的圖片文件。一些系統(tǒng)可以生成接近于原來(lái)圖片格式的輸出,包括圖片,排版,以及其它非文本組件,這也叫做版面還原。

工具

Tesseract

現(xiàn)在最出名,最常用的OCR就是谷歌的tesseract OCR engine2。最新的版本是Tesseract4。Tesseract的主要開發(fā)者是Ray Smith3.

Tesseract支持unicode(UTF-8),安裝后即可識(shí)別超過(guò)100種語(yǔ)言。

Tesseract支持不同的輸出可是:普通文本,hOCR(html),PDF,TSV,invisible-text-only PDF。在master分支,還試驗(yàn)性地支持ALTO(XML)格式。

請(qǐng)記住,在大多數(shù)情況下,為了獲得更好的OCR結(jié)果,你需要為提供給Tesseract的圖片提升質(zhì)量4.

Tesseract可以通過(guò)訓(xùn)練來(lái)識(shí)別其它語(yǔ)言和其它字體5.

另外,有很多第三方的Tesseract GUI應(yīng)用??梢灾苯酉螺d使用6。

pytesseract

Python-tesseract7(pytesseract)是Google Tesseract ORC引擎的封裝。首次commit的2014年。用這個(gè)庫(kù),可以很方便地編寫腳本,可以用它來(lái)識(shí)別所有可以由PIL識(shí)別的圖片格式,包括jpeg, png, gif, bmp, tiff等, 而tesseract-orc本來(lái)只支持tiff和bmp兩種格式。

如果在腳本中使用,識(shí)別的文本可以輸出為Python字符串,而不是直接輸出到文件中。

另外,這個(gè)代碼庫(kù)只有一個(gè)文件,400行代碼。如果有任何疑問(wèn),可以直接翻看源代碼。

tesserocr

tesserocr8也是一個(gè)TesseractOCR的封裝庫(kù)。它的首次commit是2015年。

這個(gè)庫(kù)相對(duì)于pytesseract的優(yōu)勢(shì)在于9,這個(gè)庫(kù)是使用Cython來(lái)直接調(diào)用Tesseract的C++ API。使用它和threading模塊來(lái)處理圖片,可以釋放GIL,達(dá)到正常的并發(fā)執(zhí)行。

1.Wiki: OCR

2.Github: tesseract OCR engine

3.Tesseract作者 Ray Smith,美國(guó)計(jì)算機(jī)科學(xué)家,計(jì)算機(jī)圖形學(xué)的先驅(qū). 他的中文名字叫做匠白光. ↩

4.Wiki: 為Tesseract提升圖片質(zhì)量

5.Wiki: 訓(xùn)練Tesseract

6.Tesseract第三方GUI應(yīng)用列表

7.Github: Python-tesseract

8.Github: tesserocr

9.Hacknews: 關(guān)于pytesseract, tesserocr的區(qū)別

總結(jié)

以上所述是小編給大家介紹的如何使用Python進(jìn)行OCR識(shí)別圖片中的文字,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!

相關(guān)文章

最新評(píng)論