快捷導(dǎo)航

Python 圖片文字識(shí)別的實(shí)現(xiàn)之PaddleOCR

更新時(shí)間：2021年11月16日 15:13:02 作者：劍客阿良_ALiang

OCR方向的工程師，之前一定聽(tīng)說(shuō)過(guò)PaddleOCR這個(gè)項(xiàng)目，其主要推薦的PP-OCR算法更是被國(guó)內(nèi)外企業(yè)開(kāi)發(fā)者廣泛應(yīng)用，短短半年時(shí)間，累計(jì)Star數(shù)量已超過(guò)15k，頻頻登上Github Trending和Paperswithcode 日榜月榜第一

前言

什么是OCR?

光學(xué)字符識(shí)別（Optical Character Recognition, OCR），是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理，獲取文字及版面信息的過(guò)程。簡(jiǎn)而言之，檢測(cè)圖像中的文本資料，并且識(shí)別出文本的內(nèi)容。

那么有哪些應(yīng)用場(chǎng)景呢？

其實(shí)我們?nèi)粘Ｉ钪刑幪幎加衞cr的影子，比如在疫情期間身份證識(shí)別錄入信息、車輛車牌號(hào)識(shí)別、自動(dòng)駕駛等。我們的生活中，機(jī)器學(xué)習(xí)已經(jīng)越來(lái)越多的扮演著重要角色，也不再是神秘的東西。

OCR的技術(shù)路線是什么呢？

ocr的運(yùn)行方式如下圖，輸入->圖像預(yù)處理->文字檢測(cè)->文本識(shí)別->輸出。

本文主要是介紹一個(gè)博主使用的比較好的OCR開(kāi)源項(xiàng)目，在這里分享給大家——PaddleOCR。

項(xiàng)目Github地址: PaddleOCR地址

我會(huì)按照剛接觸的狀態(tài)，梳理一下驗(yàn)證使用該項(xiàng)目的過(guò)程。

項(xiàng)目使用

先把項(xiàng)目從github上clone下來(lái)，慢慢分析。

項(xiàng)目結(jié)構(gòu)

首先我們看一下項(xiàng)目的構(gòu)造。

發(fā)現(xiàn)項(xiàng)目有中文的介紹說(shuō)明，這就很方便了，點(diǎn)開(kāi)按照官方的說(shuō)明開(kāi)始操作。

環(huán)境部署

點(diǎn)開(kāi)README.md,，可以從文檔教程中看到第一步就是教你如何安裝環(huán)境。

由于內(nèi)容過(guò)多，我就做個(gè)概括，方便大家直接上手。

1、安裝Anaconda，構(gòu)造虛擬環(huán)境

這里可以參考我的另一篇文章，里面很詳細(xì)：Python 機(jī)器學(xué)習(xí)第一章環(huán)境配置圖解流程

官方給的是python3.8的虛擬環(huán)境，我們也構(gòu)造一個(gè)，打開(kāi)Anaconda Prompt。

輸入命令：

conda create -n paddle_env python=3.8

激活環(huán)境：

conda activate paddle_env

2、依賴包下載

paddlepaddle安裝

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

layoutparser安裝

pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

Shapely安裝，這個(gè)需要下載，下載地址：Shapely下載地址

我選的是這個(gè)

安裝命令：

pip install Shapely-1.8.0-cp38-cp38-win_amd64.whl

paddleocr安裝

pip install paddleocr -i https://mirror.baidu.com/pypi/simple

好的，環(huán)境有點(diǎn)多，都安裝好了就開(kāi)始上手使用吧。

測(cè)試代碼

官方給出了兩種模式，一是命令行執(zhí)行，一是代碼執(zhí)行。為了直觀的看到配置，我這里使用的是代碼模式。

準(zhǔn)備一張帶文字的圖片

測(cè)試代碼如下

#!/user/bin/env python
# coding=utf-8
"""
@project : ocr_paddle
@author  : huyi
@file   : test.py
@ide    : PyCharm
@time   : 2021-11-15 14:56:20
"""
from paddleocr import PaddleOCR, draw_ocr
 
# Paddleocr目前支持的多語(yǔ)言語(yǔ)種可以通過(guò)修改lang參數(shù)進(jìn)行切換
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, use_gpu=False,
                lang="ch")  # need to run only once to download and load model into memory
img_path = './data/2.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    # print(line[-1][0], line[-1][1])
    print(line)
 
# 顯示結(jié)果
from PIL import Image
 
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

代碼說(shuō)明

1、因?yàn)槲业碾娔X沒(méi)有顯卡，所以設(shè)置了use_gpu=False。

2、顯示結(jié)果部分會(huì)將識(shí)別的文字用框標(biāo)出來(lái)，并且展示識(shí)別的結(jié)果。

驗(yàn)證一下

我們看到，打印的內(nèi)容有識(shí)別出來(lái)的每句話所在的圖片位置，以及識(shí)別結(jié)果和可信度。而上面的結(jié)果圖中，將每句話對(duì)應(yīng)的文字都框了出來(lái)。效果很不錯(cuò)！

參數(shù)補(bǔ)充

官方還給出了一些參數(shù)，可以調(diào)整輸出的內(nèi)容?？梢詤⒖磓uickstart.md文件。參數(shù)補(bǔ)充：

- 單獨(dú)使用檢測(cè)：設(shè)置`--rec`為`false`
- 單獨(dú)使用識(shí)別：設(shè)置`--det`為`false`

官方還提供一個(gè)標(biāo)準(zhǔn)的json結(jié)構(gòu)輸出數(shù)據(jù)

PP-Structure的返回結(jié)果為一個(gè)dict組成的list，示例如下

```shell
[{ 'type': 'Text',
'bbox': [34, 432, 345, 462],
'res': ([[36.0, 437.0, 341.0, 437.0, 341.0, 446.0, 36.0, 447.0], [41.0, 454.0, 125.0, 453.0, 125.0, 459.0, 41.0, 460.0]],
[('Tigure-6. The performance of CNN and IPT models using difforen', 0.90060663), ('Tent ', 0.465441)])
}
]
```

總結(jié)

總的來(lái)說(shuō)，這個(gè)項(xiàng)目還是很有意思的，訓(xùn)練的部分我就不多贅述了，畢竟準(zhǔn)備數(shù)據(jù)挺麻煩的?；仡^我再想想這個(gè)項(xiàng)目可不可以魔改成好用的工具。

分享：

我們根本不需要最后的落腳點(diǎn)，只要不斷前進(jìn)就好了，只要不停下，道路就會(huì)不斷延伸。——《進(jìn)擊的巨人》

如果本文對(duì)你有幫助的話，請(qǐng)不要吝嗇你的贊，謝謝！

到此這篇關(guān)于Python 圖片文字識(shí)別的實(shí)現(xiàn)之PaddleOCR的文章就介紹到這了,更多相關(guān)Python 文字識(shí)別內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: