Python通過pytesseract庫實現(xiàn)識別圖片中的文字
前言
大家好,我是空空star,本篇給大家分享一下通過Python的pytesseract庫識別圖片中的文字。
本篇所用軟件相關(guān)版本:
macOS 11.6.5
Python 3.8.9
pytesseract 0.3.10
Pillow 9.4.0
一、pytesseract
1.pytesseract是什么
Pytesseract是一個Python的OCR庫,它可以識別圖片中的文本并將其轉(zhuǎn)換成文本形式。Pytesseract基于Google的Tesseract OCR引擎,具有較高的準(zhǔn)確性和可靠性。它可以讀取多種格式的圖片,包括PNG、JPEG、GIF等。Pytesseract可以應(yīng)用于自然語言處理、數(shù)據(jù)挖掘、OCR識別等領(lǐng)域。
2.安裝pytesseract
pip install pytesseract
3.查看pytesseract版本
pip show pytesseract
Name: pytesseract
Version: 0.3.10
Summary: Python-tesseract is a python wrapper for Google’s Tesseract-OCR
Home-page: https://github.com/madmaze/pytesseract
Author: Samuel Hoffstaetter
Author-email: samuel@hoffstaetter.com
License: Apache License 2.0
Requires: packaging, Pillow
Required-by:
4.安裝PIL
Pillow庫是Python圖像處理庫,pytesseract使用它來處理圖像。
pip install pillow
5.查看PIL版本
pip show pillow
Name: Pillow
Version: 9.4.0
Summary: Python Imaging Library (Fork)
Home-page: https://python-pillow.org
Author: Alex Clark (PIL Fork Author)
Author-email: aclark@python-pillow.org
License: HPND
Requires:
Required-by: image, imageio, matplotlib, pytesseract, wordcloud
二、Tesseract OCR
1.Tesseract OCR是什么
Tesseract OCR是一種開源的OCR(Optical Character Recognition,光學(xué)字符識別)引擎,它能夠?qū)D像中的文本內(nèi)容識別并轉(zhuǎn)換為可編輯的文本格式。它最初由惠普實驗室開發(fā),現(xiàn)在由谷歌維護(hù)和更新。Tesseract OCR支持超過100種語言,包括中文、英文、法文、德文等。它可以在多種操作系統(tǒng)上運(yùn)行,包括Windows、Linux、macOS等。Tesseract OCR被廣泛應(yīng)用于數(shù)字化文檔、自動化數(shù)據(jù)輸入、智能搜索等方面。
2.安裝Tesseract OCR
macOS下:
brew install tesseract
3.安裝 Tesseract OCR 語言包
macOS下:
brew install tesseract-lang
三、使用方法
1.引入庫
import pytesseract from PIL import Image
2.打開圖片文件
img = Image.open("demo.png")
3.使用Tesseract進(jìn)行文字識別
text = pytesseract.image_to_string(img, lang='chi_sim')
4.輸出識別結(jié)果
print(text)
原圖
識別出的文字截圖
總結(jié)
image_to_string是一個Python函數(shù),它是由tesseract OCR引擎提供的。這個函數(shù)的作用是將一個圖像中的文本轉(zhuǎn)換成字符串,也就是把圖像中的文字識別出來,并把它們轉(zhuǎn)換成計算機(jī)可以處理的字符串格式。這個函數(shù)可以接受多種格式的圖像,例如JPEG、PNG、BMP等。在使用這個函數(shù)前,需要確保已經(jīng)安裝了tesseract OCR引擎。
以上就是Python通過pytesseract庫實現(xiàn)識別圖片中的文字的詳細(xì)內(nèi)容,更多關(guān)于Python pytesseract識別圖片中文字的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
pandas快速處理Excel,替換Nan,轉(zhuǎn)字典的操作
這篇文章主要介紹了pandas快速處理Excel,替換Nan,轉(zhuǎn)字典的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03python常用數(shù)據(jù)結(jié)構(gòu)元組詳解
這篇文章主要介紹了python常用數(shù)據(jù)結(jié)構(gòu)元組詳解,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下2022-08-08Python自動化實戰(zhàn)之接口請求的實現(xiàn)
本文為大家重點介紹如何通過 python 編碼來實現(xiàn)我們的接口測試以及通過Pycharm的實際應(yīng)用編寫一個簡單接口測試,感興趣的可以了解一下2022-05-05Pytorch中的torch.nn.Linear()方法用法解讀
這篇文章主要介紹了Pytorch中的torch.nn.Linear()方法用法,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-02-02ubuntu安裝sublime3并配置python3環(huán)境的方法
這篇文章主要介紹了ubuntu安裝sublime3并配置python3環(huán)境的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-03-03python?dataframe獲得指定行列實戰(zhàn)代碼
對于一個DataFrame,常常需要篩選出某列為指定值的行,下面這篇文章主要給大家介紹了關(guān)于python?dataframe獲得指定行列的相關(guān)資料,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-12-12