如何使用Python進行OCR識別圖片中的文字

更新時間：2019年04月01日 08:40:44 作者：thomaszdxsn

這篇文章主要介紹了使用Python進行OCR識別圖片中的文字，本文通過實例代碼加文字說明的形式給大家介紹的非常詳細，具有一定的參考借鑒價值,需要的朋友可以參考下

OCR技術(shù)廣泛用于識別打印紙張中的文字數(shù)據(jù) -- 比如護照，支票，銀行聲明，收據(jù)，統(tǒng)計表單，郵件等。OCR的早期版本，需要對圖片中的每個文字都進行訓練，一次只能作用于一種字體。高級的版本增加了很大的識別率，可以同時識別現(xiàn)在很多流行的字體，支持不同種類格式的圖片文件。一些系統(tǒng)可以生成接近于原來圖片格式的輸出，包括圖片，排版，以及其它非文本組件，這也叫做版面還原。

工具

Tesseract

現(xiàn)在最出名，最常用的OCR就是谷歌的tesseract OCR engine2。最新的版本是Tesseract4。Tesseract的主要開發(fā)者是Ray Smith3.

Tesseract支持unicode(UTF-8)，安裝后即可識別超過100種語言。

Tesseract支持不同的輸出可是：普通文本，hOCR(html)，PDF，TSV，invisible-text-only PDF。在master分支，還試驗性地支持ALTO(XML)格式。

請記住，在大多數(shù)情況下，為了獲得更好的OCR結(jié)果，你需要為提供給Tesseract的圖片提升質(zhì)量4.

Tesseract可以通過訓練來識別其它語言和其它字體5.

另外，有很多第三方的Tesseract GUI應用?？梢灾苯酉螺d使用6。

pytesseract

Python-tesseract7(pytesseract)是Google Tesseract ORC引擎的封裝。首次commit的2014年。用這個庫，可以很方便地編寫腳本，可以用它來識別所有可以由PIL識別的圖片格式，包括jpeg, png, gif, bmp, tiff等，而tesseract-orc本來只支持tiff和bmp兩種格式。

如果在腳本中使用，識別的文本可以輸出為Python字符串，而不是直接輸出到文件中。

另外，這個代碼庫只有一個文件，400行代碼。如果有任何疑問，可以直接翻看源代碼。