python利用 pytesseract快速識別提取圖片中的文字((圖片識別)
提示:本文多圖,請手機端注意流量。
前言
利用python做圖片識別,識別提取圖片中的文字會有很多方法,但是想要簡單一點怎么辦,那就可以使用tesseract識別引擎來實現(xiàn),一行代碼就可以做到提取圖片文本。
一、配置環(huán)境
1. 安裝python依賴
本程序用到了兩個python庫,pytesseract和PIL,所以先來安裝。
運行以下命令
pip install Pillow pip install pytesseract
如果在python中沒有報錯,說明程序安裝成功,
2. 安裝識別引擎
安裝完以上兩個依賴還需要對應的識別引擎。點擊去下載
咱們直接使用5月10號構建的最新版本。
安裝tesseract識別引擎(可跳過)
下載完成后打開程序進行安裝,先選擇語言,這里選擇英語English
就行,然后點ok
接下來就是next
,完了點擊I Agree
同意協(xié)議,
為所有用戶安裝,然后點next
,如圖,
接下來安裝中文的語言包用來識別中文
,需要滑到下面,選擇中文,我這里橫排簡體中文和豎排簡體中文都選擇了,完成后點擊next,
選擇安裝路徑,建議安裝到C盤以外,然后點擊next
這里點擊安裝install
,
等待安裝完成
安裝完成后,點擊next
,再點擊finish
完成安裝,
驗證是否安裝成功
添加環(huán)境變量,就是你安裝到的那個文件夾路徑,直接加到path里面,
然后在命令行運行tesseract -v
,如果和下圖一樣,說明你已經安裝成功了,
二、使用步驟
1.引入庫
from PIL import Image import pytesseract
2.提取圖片文字
將讀取圖片的一行代碼封裝為一個函數(shù),
def read_image(name): print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))
在main
函數(shù)中直接調用即可,
def main(): read_image('1657158527412.jpg')
3.運行效果
以以下圖片為例,
運行效果如下,
總結
本文介紹了tesseract的python調用,也就是pytesseract庫,其中還有一些其他的內容并沒有涉及,僅涉及到了圖片提取文字,如果你對其感興趣,可以深入探索一下,也希望能和我探討一下。
完整代碼
from PIL import Image import pytesseract def read_image(name): print(pytesseract.image_to_string(Image.open(name), lang='chi_sim')) def main(): read_image('img.png') if __name__ == '__main__': main()
到此這篇關于python利用 pytesseract快速識別提取圖片中的文字( 圖片識別)的文章就介紹到這了,更多相關python pytesseract識別圖片文字內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
python3.6中anaconda安裝sklearn踩坑實錄
這篇文章主要介紹了python3.6中anaconda安裝sklearn踩坑實錄,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-07-07詳解Python結合Genetic?Algorithm算法破解網易易盾拼圖驗證
很多網站在登錄或者注冊時都會遇到拼圖驗證碼,這種拼圖驗證碼實際上是多個小碎片經過重新組合成的一張整體。本文將和大家分享一個基于Python?Genetic?Algorithm的破解拼圖驗證碼的辦法,需要的可以參考一下2022-02-02