欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

PaddleOCR 識別表情包文字示例詳解

 更新時間:2022年08月20日 16:15:09   作者:OldBirds  
這篇文章主要為大家介紹了PaddleOCR 識別表情包文字示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪

引言

最近在做個表情包的小程序,涉及到表情包搜索功能。我們上傳表情包的時候,只有一張圖,怎么搜索?這個時候我們想到就是將表情包的文字提取出來,作為搜索的內(nèi)容。那么這就需要用到 ocr 技術(shù)了。

經(jīng)過幾個 ocr 的庫的使用,小編強烈推薦使用 PaddleOCR,一款文本識別效果不輸于商用的Python庫!

對于 PaddleOCR 本文不會過多介紹,可自行搜索。重點是如何使用 PaddleOCR 解決我的問題。

安裝 PaddleOCR

pip install paddlepaddle
pip install paddleocr

我這邊安裝后的版本:

paddleocr==2.5.0.3
paddlepaddle==2.3.1

在 macOS 安裝后,項目運行報錯報錯,忘了截圖,應(yīng)該是與 setuptools 版本有關(guān),解決方式:

pip install --upgrade setuptools==59.8.0

完成這些配置后,我們就可以愉快的玩耍了。

本地處理

import hashlib
import io
from PIL import Image
from paddleocr import PaddleOCR
def get_gif_pic_path(url):
    '''下載圖片,返回圖片第一幀路徑'''
    response = requests.get(url)
    filename = hashlib.md5(url.encode(encoding='utf-8')).hexdigest()
    img = Image.open(io.BytesIO(response.content))
    current = img.tell()
    img_path = f'bqb/{filename}_{current}.png'
    img.save(img_path)
    return img_path
def ocr_get_gif_text_sec(url) -> str:
    '''識別gif第一幀圖片的文字'''
    img_path = get_gif_pic_path(url)
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    result = ocr.ocr(img_path, cls=True)
    data = []
    for item in result:
        data.append(item[1][0])
    return ",".join(data)
ocr_get_gif_text_sec('https://xxxxxx')

由于 gif 是個動圖,所以我們需要取出圖片的第一幀進行識別,get_gif_pic_path實現(xiàn)了這個功能。ocr_get_gif_text_sec 從 gif 第一幀的圖進行文字提取,返回的 result 是個數(shù)組,我們通過遍歷進行提取出來。

提取 gif 圖片的內(nèi)容我們就完成了,兩個函數(shù)的功能也比較簡單。本文沒做 gif 全部文字的提取,有興趣可以挑戰(zhàn)下。

在 flask 中處理

當我們想在上傳圖片的時候,進行對圖片文字的處理怎么辦?難道要將上傳的圖保存到路徑再去識別么?這也是我在開發(fā)中遇到的一個問題,經(jīng)過拆坑,答案是:不,你不需要。

思路:我們可以從表單中獲取上傳的圖片的二進制,然后將這個二進制傳給ocr.ocr(),那么ocr.ocr() 支持這個類型么?經(jīng)過查看此函數(shù)源碼,我們可以讓它支持。

將圖片二進制轉(zhuǎn)化為 nparray 類型即可。下面是這個過程的具體代碼

from paddleocr import PaddleOCR
import numpy as np
import cv2
@app.route('/v1/upload_img', methods=['POST'])
def api_v1_upload_img():
    if 'file' not in request.files:
        return "no file part"
    file = request.files['file']
    if file.filename == '':
        return "no selected file"
    if file:
        file_name = file.filename
        # 獲取圖片的二進制
        res = upload_image(bytes=file.read(), filename=file_name)
        return res
    else:
        return "no file"
def upload_image(bytes, filename = None, mime_type = None):
    ocr = PaddleOCR(use_angle_cls=True, lang="ch")
    ## 核心步驟
    np_arr = np.frombuffer(bytes, dtype=np.uint8)
    img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR)
    # 進行識別
    result = ocr.ocr(img=img, cls=True)
    ocr_result = []
    for line in result:
        ocr_result.append(line[1][0].strip())
    img_content = ' '.join(ocr_result)
    return img_content   

api_v1_upload_img我們獲取到圖片二進制以及圖片名,將這些作為參數(shù)傳到upload_image,在upload_image中:

np_arr = np.frombuffer(bytes, dtype=np.uint8)
img = cv2.imdecode(np_arr, cv2.IMREAD_COLOR)

上面兩行代碼是這個需求的核心突破點。

還有一點就是建議不要將此識別功能部署到性能差的機器上,并發(fā)一下,完全扛不住,默默的留下兩行眼淚。

以上就是PaddleOCR 識別表情包文字示例詳解的詳細內(nèi)容,更多關(guān)于PaddleOCR識別表情包文字的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Python 裝飾器代碼解析

    Python 裝飾器代碼解析

    裝飾器(Decorators)是 Python 的一個重要部分。簡單地說:他們是修改其他函數(shù)的功能的函數(shù)。他們有助于讓我們的代碼更簡短,也更Pythonic(Python范兒)。大多數(shù)初學者不知道在哪兒使用它們,所以我將要分享幾個示例
    2021-11-11
  • 對python 中class與變量的使用方法詳解

    對python 中class與變量的使用方法詳解

    今天小編就為大家分享一篇對python 中class與變量的使用方法詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06
  • 一文詳解Python垃圾回收

    一文詳解Python垃圾回收

    這篇文章主要介紹了一文詳解Python垃圾回收的相關(guān)資料,需要的朋友可以參考下
    2023-09-09
  • Pytorch torch.repeat_interleave()用法示例詳解

    Pytorch torch.repeat_interleave()用法示例詳解

    torch.repeat_interleave() 是 PyTorch 中的一個函數(shù),用于按指定的方式重復(fù)張量中的元素,這篇文章主要介紹了Pytorch torch.repeat_interleave()用法示例詳解,需要的朋友可以參考下
    2024-01-01
  • Python?SQLAlchemy與數(shù)據(jù)庫交互操作完整指南

    Python?SQLAlchemy與數(shù)據(jù)庫交互操作完整指南

    SQLAlchemy 是一個強大的 Python 庫,用于數(shù)據(jù)庫操作,無論是簡單的數(shù)據(jù)存儲還是復(fù)雜的數(shù)據(jù)管理,SQLAlchemy 都提供了多種方法來處理數(shù)據(jù)庫,本文將全面介紹 SQLAlchemy的基本用法以及各種操作的示例代碼
    2024-01-01
  • 在Python中實現(xiàn)函數(shù)重載的示例代碼

    在Python中實現(xiàn)函數(shù)重載的示例代碼

    這篇文章主要介紹了在Python中實現(xiàn)函數(shù)重載的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-12-12
  • Python爬蟲突破反爬蟲機制知識點總結(jié)

    Python爬蟲突破反爬蟲機制知識點總結(jié)

    在本篇文章里小編給大家整理了一篇關(guān)于Python爬蟲突破反爬蟲機制知識點總結(jié)內(nèi)容,有需要的朋友們可以跟著學習下。
    2021-11-11
  • Python中使用異常處理來判斷運行的操作系統(tǒng)平臺方法

    Python中使用異常處理來判斷運行的操作系統(tǒng)平臺方法

    這篇文章主要介紹了Python中使用異常處理來判斷運行的操作系統(tǒng)平臺方法,這個方法比較新穎,,需要的朋友可以參考下
    2015-01-01
  • Python序列循環(huán)移位的3種方法推薦

    Python序列循環(huán)移位的3種方法推薦

    下面小編就為大家分享一篇Python序列循環(huán)移位的3種方法推薦,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • 基于Python實現(xiàn)圖像文字識別OCR工具

    基于Python實現(xiàn)圖像文字識別OCR工具

    在工作、生活中常常會用到,比如票據(jù)、漫畫、掃描件、照片的文本提取。本文主要介紹了基于PyQt + PaddleOCR實現(xiàn)的一個桌面端的OCR工具,用于快速實現(xiàn)圖片中文本區(qū)域自動檢測+文本自動識別,需要的朋友可以參考一下
    2021-12-12

最新評論