使用Python中的pytesseract模塊實(shí)現(xiàn)抓取圖片中文字
一、需求分析
最近同事用網(wǎng)上提供掃描軟件進(jìn)行掃描識(shí)別文字,每天上線只能夠做兩次掃描,請(qǐng)求我研發(fā)一個(gè)小工具幫助解決識(shí)別圖片的中文字。
二、方案選擇
使用pytesseract模塊可以解決這個(gè)需求問題,pytesseract是光識(shí)別圖片的模塊。需要安裝第三方資源庫(kù)進(jìn)行搜索。
三、實(shí)驗(yàn)實(shí)操
3.1、配置環(huán)境
Anaconda3.0,pycharm2022版,python3.7.0,win10
3.2、 Anaconda配置
先配置Anaconda3的環(huán)境,找到默認(rèn)安裝路徑C:\Users\Administrator\.condarc(看自己環(huán)境安裝哪里)
將.condarc文件備份一個(gè),然后加載源的配置項(xiàng)拷貝進(jìn)去,重啟Anaconda3程序,生效配置項(xiàng)。
加載源:
channels:
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
show_channel_urls: true
ssl_verify: true
3.3、安裝tesseract程序
下載tesseract的exe安裝文件,安裝包地址:https://github.com/UB-Mannheim/tesseract/wiki
我下的是 tesseract-ocr-w64-setup-v5.0.1.20220118.exe版本。(本機(jī)是64位操作系統(tǒng))
選配項(xiàng)中記得選擇中文的語言,后期識(shí)別中文字體做準(zhǔn)備。
配置tesseract系統(tǒng)環(huán)境變量,將 tesseract-ocr的絕對(duì)路徑配置在系統(tǒng)變量中。
【從C:\Program Files\Tesseract-OCR安裝目錄下,直接把tessdata 文件夾里的內(nèi)容都復(fù)制到C:\Users\Administrator\Anaconda3,另外tessdata 文件夾里chi_sim.traineddata,eng.traineddata文件需要復(fù)制到C:\ProgramData\Anaconda3下,不然后面運(yùn)行程序會(huì)提示找不到文件,配置好環(huán)境變量也不行!】(據(jù)說是霸王條款)
重啟系統(tǒng)讓變量生效。
3.4、安裝pytesseract模塊
運(yùn)行Anaconda 終端命令,執(zhí)行conda install tesserocr pillow
系統(tǒng)已經(jīng)顯示我已經(jīng)安裝。(安裝的時(shí)間有一些長(zhǎng),需要耐性等待。)
執(zhí)行另外一個(gè)指令conda install pytesseract (安裝pytesseract,這個(gè)安裝需要一點(diǎn)時(shí)間等待了)
使用python語句進(jìn)行驗(yàn)證。
3.5、見證奇跡的環(huán)節(jié)
測(cè)試1:
在pycharm編譯器中執(zhí)行語句操作:
from PIL import Image import pytesseract image = Image.open("粉絲.jpg") #打開圖片 #print(image.size) #測(cè)試圖片像素尺寸 text = pytesseract.image_to_string(image, lang='chi_sim') #圖片轉(zhuǎn)字符串 text = text.replace("“ ","").replace("。","") #去掉雜質(zhì),提純 print(text) #測(cè)試結(jié)果
原圖片粉絲.jpg:
編譯結(jié)果:.(已經(jīng)成功識(shí)別圖片內(nèi)部的文字,進(jìn)行呈現(xiàn)。)
測(cè)試2:
原圖2
測(cè)試結(jié)果:可以正常識(shí)別圖片文字出來了。
參考網(wǎng)友知識(shí):
anaconda+python+tesseract安裝,親試可用
到此這篇關(guān)于使用Python中的pytesseract模塊實(shí)現(xiàn)抓取圖片中文字的文章就介紹到這了,更多相關(guān)Python pytesseract模塊抓取圖片中文字內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Django 用戶登陸訪問限制實(shí)例 @login_required
這篇文章主要介紹了Django 用戶登陸訪問限制實(shí)例 @login_required,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-05-05使用Python合并Excel文件中的多個(gè)Sheet的實(shí)現(xiàn)過程
在Python中,可以使用pandas庫(kù)來處理Excel文件,將多個(gè)工作表(sheets)合并為一個(gè)工作表,以下是一個(gè)詳細(xì)的代碼示例,展示了如何實(shí)現(xiàn)這一功能,文中有相關(guān)的代碼供大家參考,需要的朋友可以參考下2024-10-10探索Python?Furl高性能URL構(gòu)建解析和操作功能實(shí)例
本文將提供關(guān)于Python?Furl的全面指南,包括安裝和配置、基本概念、URL解析、URL構(gòu)建、查詢參數(shù)操作、片段處理、實(shí)際應(yīng)用場(chǎng)景以及豐富的示例代碼2024-01-013個(gè)Python?SQLAlchemy數(shù)據(jù)庫(kù)操作功能詳解
Python?SQLAlchemy?是一個(gè)強(qiáng)大且多功能的?Python?SQL?工具包和對(duì)象關(guān)系映射?(ORM)?系統(tǒng),提供了一整套眾所周知的企業(yè)級(jí)持久性模式,本文為大家整理了它必須了解的3個(gè)數(shù)據(jù)庫(kù)操作功能,希望對(duì)大家有所幫助2023-09-09python實(shí)現(xiàn)Android與windows局域網(wǎng)文件夾同步
這篇文章主要給大家詳細(xì)介紹了python實(shí)現(xiàn)Android與windows局域網(wǎng)文件夾同步,文中有詳細(xì)的代碼示例和圖文介紹,具有一定的參考價(jià)值,需要的朋友可以參考下2023-09-09