欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

C#?PaddleOCRSharp?OCR進行疲勞測試

 更新時間:2024年11月20日 08:25:05   作者:初九之潛龍勿用  
PaddleOCRSharp?是百度飛槳封裝的.NET版本?OCR?dll?類庫,OCR可以將圖像文件中的文本內(nèi)容進行識別,下面我們就來看看如何通過它們實現(xiàn)疲勞測試吧

關(guān)于 PaddleOCRSharp

PaddleOCRSharp 是百度飛槳封裝的.NET版本 OCR dll 類庫,OCR(Optical Character Recognition)工具可以將圖像文件中的文本內(nèi)容進行識別,轉(zhuǎn)換成可編輯的文本格式。從而進一步進行編輯、存儲和分析。

在實際的使用中,這款工具類庫的確很優(yōu)秀,無論從識別時間還是識別率來說,比較平衡比較令人滿意。

應(yīng)用范例演示

這是我們在實際應(yīng)用中開發(fā)的一款工具,基于 Windows WinForm 模式,用于識別客戶提供的電子檔案中的文字,并進行文字識別存儲及后續(xù)的管理。其主界面運行如下:

如圖,工具程序在導(dǎo)入前提供了一些選項,包括:

(1)導(dǎo)入類型為圖片數(shù)據(jù)和個人信息(這包括了導(dǎo)入文本到數(shù)據(jù)庫的選項)

(2)跳過OCR識別功能,是為了直接導(dǎo)入圖片到數(shù)據(jù)庫,這里我們需要勾選掉以進行測試

(3)對已導(dǎo)入數(shù)據(jù)執(zhí)行更新操作,這個選項是純數(shù)據(jù)庫更新操作

(4)不輸出導(dǎo)出報告,是為了減少內(nèi)存占用量,提升性能

快捷設(shè)置可以提供自動設(shè)置4個選項的目的。

工具程序提供了全目錄全文件分析和單目錄分析,全目錄會遍歷該目錄下所有的電子圖片進行識別操作,這里我們選擇的是單目錄文件分析(即選擇一個目錄,只查找該目錄下所有的圖片文件),并將最終的分析結(jié)果顯示在報告框中。

在實際的運行應(yīng)用中,我們的檔案有共計幾千萬份圖片,由于環(huán)境及硬件要求,僅提供了三臺配置雷人的臺式機,發(fā)現(xiàn)運行幾小時后,PaddleOCRSharp.dll 運行崩潰報錯,如下圖:

因此需要對程序進行一些改進。

?范例運行環(huán)境

操作系統(tǒng): Windows Server 2019 DataCenter

PaddleOCRSharp版本:2.2.0.0

數(shù)據(jù)庫:Microsoft SQL Server 2016

.net版本: .netFramework4.0 或以上

開發(fā)工具:VS2019  C#

疲勞測試

添加組件庫

打 VS2019 創(chuàng)建 WinForm 應(yīng)用,在解決方案資源管理器中添加引用,成功后如下圖:

 添加 using PaddleOCRSharp; 引用,示例如下:

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;
using PaddleOCRSharp;
using System.IO;
using System.Collections;
using System.Data.SqlClient;
using System.Diagnostics;
using System.Security.Cryptography;

方法設(shè)計 

首先在 WinForm (實例假設(shè)為 Form1),中初化如下變量,代碼如下:

OCRModelConfig config = null;
OCRParameter oCRParameter = new OCRParameter();
PaddleOCREngine engi = null;
OCRResult ocrResult = new OCRResult();

說明表如下: 

序號參數(shù)名類型說明
1config OCRModelConfigOCR模型的配置對象
2oCRParameter OCRParameterOCR模型的識別參數(shù)對象
3engiPaddleOCREngineOCR模型的識別引擎對象
4ocrResultOCRResultOCR模型的識別結(jié)果對象

初始化對象是疲勞測試的關(guān)鍵設(shè)計,如果每次都 new 一個對象,系統(tǒng)運行一段時間后就會崩潰。

paddleOCR方法實現(xiàn)對于路徑圖片的文字識別提取,代碼如下:

string paddleOCR(string imagepath)
{
            var imagebyte = File.ReadAllBytes(imagepath);
            
 
            oCRParameter.cpu_math_library_num_threads = 10;// 預(yù)測并發(fā)線程數(shù)
            oCRParameter.enable_mkldnn = false; // web部署該值建議設(shè)置為0,否則出錯,內(nèi)存如果使用很大,建議該值也設(shè)置為0.
            oCRParameter.cls = false; // 是否執(zhí)行文字方向分類;默認false
            oCRParameter.use_angle_cls = false; // 是否開啟方向檢測,用于檢測識別180旋轉(zhuǎn)
            oCRParameter.det_db_score_mode = false; // 是否使用多段線,即文字區(qū)域是用多段線還是用矩形
            oCRParameter.det_db_unclip_ratio = 1.6f;
            
 
            engi = new PaddleOCREngine(config, oCRParameter);
 
            ocrResult = engi.DetectText(imagebyte);
 
            engi.Dispose();
 
            if (ocrResult != null)
            {
                return ocrResult.Text;
            }
            
            return "";
}

paddleOCR方法僅需要提供一個圖片完整路徑參數(shù)即可,方法中的參數(shù)對象需要說明一下,見下表:

序號參數(shù)名說明
1 cpu_math_library_num_threadsCPU預(yù)測時的線程數(shù),在機器核數(shù)充足的情況下,該值越大,預(yù)測速度越快;在我們應(yīng)用里設(shè)置為10
2enable_mkldnn即是否使用mkldnn庫, web部署該值建議設(shè)置為false,否則出錯,內(nèi)存如果使用很大,建議該值也設(shè)置為false,在這里我們設(shè)置為false
3cls是否執(zhí)行文字方向分類,在這里我們設(shè)置為false
4use_angle_cls是否開啟方向檢測,用于檢測識別180旋轉(zhuǎn),在這里我們設(shè)置為false
5det_db_score_mode是否使用多段線,即文字區(qū)域是用多段線還是用矩形,在這里我們設(shè)置為false
6 det_db_unclip_ratio表示文本框的緊致程度,越小則文本框更靠近文本,在這里我們使用了默認值 1.6f

調(diào)用示例 

在Form上假設(shè)有按鈕 Button1,則其點擊事件的調(diào)用代碼示例如下:

private void Button1_Click(object sender, EventArgs e)
{
 
 
   OpenFileDialog ofd = new OpenFileDialog();
   ofd.Filter = "*.*|*.bmp;*.jpg;*.jpeg;*.tiff;*.tiff;*.png";
   if (ofd.ShowDialog() != DialogResult.OK) return;
   string rv2 = paddleOCR(ofd.FileName);
   MessageBox.Show("共識別提取了"+rv2.Length.ToString()+"個文字\r\n"+ rv2, "識別結(jié)果");
   return;
}

小結(jié)

在實際的運行中,三臺機器同時運行,有兩臺機器運行了7天以上暫無報錯,一臺運行了5天左右報錯,唯一的區(qū)別在于報錯機器的顯卡配置較低,不同于其它兩臺機器??傮w來說對于幾個小時就會出錯,提升了不少,也給我們監(jiān)控運行狀況提供了空間。

本實例是根據(jù)客戶提供的電子圖片類型、目錄結(jié)構(gòu)、JSON配置文件進行的定制開發(fā),在實際應(yīng)用我們要根據(jù)情況進行參數(shù)的設(shè)置和設(shè)計的調(diào)整,在測試中我們發(fā)現(xiàn)通過本實例的參數(shù)設(shè)置可以多識別出一些文字,而且識別率還是比較準確的。 

到此這篇關(guān)于C# PaddleOCRSharp OCR進行疲勞測試的文章就介紹到這了,更多相關(guān)C# OCR疲勞測試內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評論