欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python圖片文字識別與提取實戰(zhàn)記錄

 更新時間:2024年09月30日 10:56:58   作者:andyyah曉波  
這篇文章主要介紹了Python圖片文字識別與提取的相關(guān)資料,本文介紹了如何安裝和配置OCR環(huán)境,包括安裝pytesseract擴展包、窗口配套軟件以及配置環(huán)境變量,在完成環(huán)境搭建后,即可進行圖片中文字的提取,需要的朋友可以參考下

前言

在工作中,有時候會有大量的截圖、拍照數(shù)據(jù)需要提取,傳統(tǒng)只能人工錄入。但隨著人工智能的發(fā)展,OCR技術(shù)已經(jīng)可以實現(xiàn)了圖片的文字識別,本節(jié)就講講如何安裝部署文字識別環(huán)境,并進行文字識別實戰(zhàn)。

<1> 前置條件

1、掌握Python的基本知識

2、會使用pip安裝擴展包

3、下載安裝pytesseract軟件

4、會配置Windows的環(huán)境變量。

<2> 使用pip安裝pytesseract擴展包

使用pytesseract包的第一步是使用pip安裝該軟件包。在命令提示符環(huán)境中,輸入如下指令:

pip install pytesseract

等待上述指令提示安裝安裝即可,如果出錯,大概率是你的網(wǎng)絡問題。如下:


看到Successfully表示pytesseract包安裝成功。

<3> 安裝window配套軟件包

登錄https://digi.bib.uni-mannheim.de/tesseract/網(wǎng)站,下載對應版本的軟件。如下:

然后打開軟件,開始軟件的安裝。如下先選擇安裝的語言,建議默認English即可,因為改為其它語言可能出現(xiàn)意想不到的錯誤。點擊OK即可。 

出現(xiàn)如下界面,點擊Next即可。 

這里會出現(xiàn)License Agreement,這是一個授權(quán)條款,點擊I Agree即可,如下:

出現(xiàn)Choose Users界面,意思是你安裝的軟件誰可以用。建議默認,如果選擇just for me會將軟件安裝到用戶目錄下。這里直接點擊Next即可。

 接下來是Choose Components,即選擇組件。默認支持英文、數(shù)字的識別,如果要支持中文識別需要勾選Additional script data(han開頭的4個)和Additional language data(chinese開頭的4個)兩項的中文內(nèi)容。  然后點擊Next,如下:

這里是安裝目錄,建議默認,直接點擊Next即可。

接下來是選擇是否將其添加到開始菜單,建議默認,直接點擊Install。

然后等待安裝完成,如下。

出現(xiàn)如下界面,表示安裝完成。點擊Next即可。

最后點擊Finish按鈕,結(jié)束程序安裝。

<4> 配置環(huán)境變量

在Windows系統(tǒng)環(huán)境下使用,需要配置環(huán)境變量,主要涉及兩個。

第一個是path變量需要新增tesseract的安裝目錄。我采用的默認路徑,所以是:"C:\Program Files\Tesseract-OCR"。

第二個是path變量需要新增tesseract的數(shù)據(jù)目錄。如下:需要先新增一個變量名“TESSDATA_PREFIX”,變量值設(shè)置為:"安裝路徑\tessdata"。我采用的默認路徑,所以是:"C:\Program Files\Tesseract-OCR\tessdata",如下:

然后將新建的變量名添加到path變量列表中,如下:

完成上述步驟后,需要重啟電腦,否則接下來的步驟可能會失效。

驗證是否安裝成功,在命令提示符下輸入tesseract --version,如果出現(xiàn)如下類似信息即表示成功,否則配置失敗。

<5> 圖片文字識別

現(xiàn)在有了環(huán)境之后,小編就隨便在網(wǎng)上找一個圖來測試一下,看看效果如何,下面是在隨便找的一個路牌圖片。

 寫一個字符提取腳本,如下:

# 導入相關(guān)包
from PIL import Image
import pytesseract

# 打開圖片
p='test.png'
im = Image.open(p)

# 使用包進行文字識別
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(im, lang='chi_sim')
print(text)

上述代碼中,除了我們安裝的包pytesseract外,還使用了PIL包,主要是利用PIL.Image完成圖片的讀取,這里可以不必理會,按照給定的語法使用就行。

利用該代碼,輸入的結(jié)果如下:

從識別的結(jié)果來看,能夠識別部分文字,但對于框框內(nèi)的文字識別出現(xiàn)了錯誤。對于此類問題需要對代碼進行適當調(diào)優(yōu),從而去除框框的影響,有興趣的小伙伴可以繼續(xù)深入研究。

總結(jié)

到此這篇關(guān)于Python圖片文字識別與提取的文章就介紹到這了,更多相關(guān)Python圖片文字識別與提取內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python import用法以及與from...import的區(qū)別

    Python import用法以及與from...import的區(qū)別

    這篇文章主要介紹了Python import用法以及與from...import的區(qū)別,本文簡潔明了,很容易看懂,需要的朋友可以參考下
    2015-05-05
  • Win10下python3.5和python2.7環(huán)境變量配置教程

    Win10下python3.5和python2.7環(huán)境變量配置教程

    這篇文章主要為大家詳細介紹了Win10下python3.5和python2.7環(huán)境變量配置教程,文中安裝步驟介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-09-09
  • Pycharm 安裝 idea VIM插件的圖文教程詳解

    Pycharm 安裝 idea VIM插件的圖文教程詳解

    這篇文章主要介紹了Pycharm 安裝 idea VIM的教程,本文通過圖文并茂的形式給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-02-02
  • Python對多個sheet表進行整合實例講解

    Python對多個sheet表進行整合實例講解

    在本篇文章里小編給大家整理的是一篇關(guān)于Python對多個sheet表進行整合實例講解內(nèi)容,有興趣的朋友們可以學習下。
    2021-04-04
  • Python內(nèi)存管理精準釋放與延遲拷貝技術(shù)探究

    Python內(nèi)存管理精準釋放與延遲拷貝技術(shù)探究

    這篇文章主要為大家介紹了Python內(nèi)存管理精準釋放與延遲拷貝技術(shù)探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2024-01-01
  • Pycharm安裝第三方庫并更換鏡像的詳細教程

    Pycharm安裝第三方庫并更換鏡像的詳細教程

    在使用pycharm學習python的時候,經(jīng)常需要第三方庫,沒有第三方庫程序就會報錯,pycharm也會提醒你要安裝所需要的庫,下面這篇文章主要給大家介紹了關(guān)于Pycharm安裝第三方庫并更換鏡像的詳細教程,需要的朋友可以參考下
    2023-05-05
  • python運行腳本文件的三種方法實例

    python運行腳本文件的三種方法實例

    在計算中,腳本一詞用于指代包含訂單邏輯序列的文件或批處理文件,下面這篇文章主要給大家介紹了關(guān)于python運行腳本文件的三種方法,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2022-06-06
  • Python刪除n行后的其他行方法

    Python刪除n行后的其他行方法

    今天小編就為大家分享一篇Python刪除n行后的其他行方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • 如何利用Python+Vue實現(xiàn)簡單的前后端分離

    如何利用Python+Vue實現(xiàn)簡單的前后端分離

    因為python開發(fā)的高效性,python web開發(fā)也受到越來越多人的關(guān)注,下面這篇文章主要給大家介紹了關(guān)于如何利用Python+Vue實現(xiàn)簡單的前后端分離的相關(guān)資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2022-07-07
  • Python模塊Uvicorn實戰(zhàn)

    Python模塊Uvicorn實戰(zhàn)

    這篇文章主要介紹了Python模塊Uvicorn實戰(zhàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-01-01

最新評論