快捷導(dǎo)航

python利用 pytesseract快速識(shí)別提取圖片中的文字((圖片識(shí)別)

更新時(shí)間：2022年11月10日 10:07:22 作者：廣龍宇

本文介紹了tesseract的python調(diào)用，也就是pytesseract庫(kù)，其中還有一些其他的內(nèi)容并沒(méi)有涉及，僅涉及到了圖片提取文字，如果你對(duì)其感興趣，可以深入探索一下，也希望能和我探討一下

前言

利用python做圖片識(shí)別，識(shí)別提取圖片中的文字會(huì)有很多方法，但是想要簡(jiǎn)單一點(diǎn)怎么辦，那就可以使用tesseract識(shí)別引擎來(lái)實(shí)現(xiàn)，一行代碼就可以做到提取圖片文本。

一、配置環(huán)境

1. 安裝python依賴

本程序用到了兩個(gè)python庫(kù)，pytesseract和PIL，所以先來(lái)安裝。

運(yùn)行以下命令

pip install Pillow
pip install pytesseract

如果在python中沒(méi)有報(bào)錯(cuò)，說(shuō)明程序安裝成功，

2. 安裝識(shí)別引擎

安裝完以上兩個(gè)依賴還需要對(duì)應(yīng)的識(shí)別引擎。點(diǎn)擊去下載

咱們直接使用5月10號(hào)構(gòu)建的最新版本。

安裝tesseract識(shí)別引擎（可跳過(guò)）

下載完成后打開(kāi)程序進(jìn)行安裝，先選擇語(yǔ)言，這里選擇英語(yǔ)English就行，然后點(diǎn)ok

接下來(lái)就是next，完了點(diǎn)擊I Agree同意協(xié)議，

為所有用戶安裝，然后點(diǎn)next，如圖，

接下來(lái)安裝中文的語(yǔ)言包用來(lái)識(shí)別中文，需要滑到下面，選擇中文，我這里橫排簡(jiǎn)體中文和豎排簡(jiǎn)體中文都選擇了，完成后點(diǎn)擊next，

選擇安裝路徑，建議安裝到C盤以外，然后點(diǎn)擊next

這里點(diǎn)擊安裝install，

等待安裝完成

安裝完成后，點(diǎn)擊next，再點(diǎn)擊finish完成安裝，

驗(yàn)證是否安裝成功

添加環(huán)境變量，就是你安裝到的那個(gè)文件夾路徑，直接加到path里面，

然后在命令行運(yùn)行tesseract -v，如果和下圖一樣，說(shuō)明你已經(jīng)安裝成功了，

二、使用步驟

1.引入庫(kù)

from PIL import Image
import pytesseract

2.提取圖片文字

將讀取圖片的一行代碼封裝為一個(gè)函數(shù)，

def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))

在main函數(shù)中直接調(diào)用即可，

def main():
    read_image('1657158527412.jpg')

3.運(yùn)行效果

以以下圖片為例，

運(yùn)行效果如下，

總結(jié)

本文介紹了tesseract的python調(diào)用，也就是pytesseract庫(kù)，其中還有一些其他的內(nèi)容并沒(méi)有涉及，僅涉及到了圖片提取文字，如果你對(duì)其感興趣，可以深入探索一下，也希望能和我探討一下。

完整代碼

from PIL import Image
import pytesseract
def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))
def main():
    read_image('img.png')
if __name__ == '__main__':
    main()

到此這篇關(guān)于python利用 pytesseract快速識(shí)別提取圖片中的文字( 圖片識(shí)別)的文章就介紹到這了,更多相關(guān)python pytesseract識(shí)別圖片文字內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: