C#?PaddleOCRSharp?OCR進行疲勞測試
關(guān)于 PaddleOCRSharp
PaddleOCRSharp 是百度飛槳封裝的.NET版本 OCR dll 類庫,OCR(Optical Character Recognition)工具可以將圖像文件中的文本內(nèi)容進行識別,轉(zhuǎn)換成可編輯的文本格式。從而進一步進行編輯、存儲和分析。
在實際的使用中,這款工具類庫的確很優(yōu)秀,無論從識別時間還是識別率來說,比較平衡比較令人滿意。
應(yīng)用范例演示
這是我們在實際應(yīng)用中開發(fā)的一款工具,基于 Windows WinForm 模式,用于識別客戶提供的電子檔案中的文字,并進行文字識別存儲及后續(xù)的管理。其主界面運行如下:
如圖,工具程序在導(dǎo)入前提供了一些選項,包括:
(1)導(dǎo)入類型為圖片數(shù)據(jù)和個人信息(這包括了導(dǎo)入文本到數(shù)據(jù)庫的選項)
(2)跳過OCR識別功能,是為了直接導(dǎo)入圖片到數(shù)據(jù)庫,這里我們需要勾選掉以進行測試
(3)對已導(dǎo)入數(shù)據(jù)執(zhí)行更新操作,這個選項是純數(shù)據(jù)庫更新操作
(4)不輸出導(dǎo)出報告,是為了減少內(nèi)存占用量,提升性能
快捷設(shè)置可以提供自動設(shè)置4個選項的目的。
工具程序提供了全目錄全文件分析和單目錄分析,全目錄會遍歷該目錄下所有的電子圖片進行識別操作,這里我們選擇的是單目錄文件分析(即選擇一個目錄,只查找該目錄下所有的圖片文件),并將最終的分析結(jié)果顯示在報告框中。
在實際的運行應(yīng)用中,我們的檔案有共計幾千萬份圖片,由于環(huán)境及硬件要求,僅提供了三臺配置雷人的臺式機,發(fā)現(xiàn)運行幾小時后,PaddleOCRSharp.dll 運行崩潰報錯,如下圖:
因此需要對程序進行一些改進。
?范例運行環(huán)境
操作系統(tǒng): Windows Server 2019 DataCenter
PaddleOCRSharp版本:2.2.0.0
數(shù)據(jù)庫:Microsoft SQL Server 2016
.net版本: .netFramework4.0 或以上
開發(fā)工具:VS2019 C#
疲勞測試
添加組件庫
打 VS2019 創(chuàng)建 WinForm 應(yīng)用,在解決方案資源管理器中添加引用,成功后如下圖:
添加 using PaddleOCRSharp; 引用,示例如下:
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms; using PaddleOCRSharp; using System.IO; using System.Collections; using System.Data.SqlClient; using System.Diagnostics; using System.Security.Cryptography;
方法設(shè)計
首先在 WinForm (實例假設(shè)為 Form1),中初化如下變量,代碼如下:
OCRModelConfig config = null; OCRParameter oCRParameter = new OCRParameter(); PaddleOCREngine engi = null; OCRResult ocrResult = new OCRResult();
說明表如下:
序號 | 參數(shù)名 | 類型 | 說明 |
---|---|---|---|
1 | config | OCRModelConfig | OCR模型的配置對象 |
2 | oCRParameter | OCRParameter | OCR模型的識別參數(shù)對象 |
3 | engi | PaddleOCREngine | OCR模型的識別引擎對象 |
4 | ocrResult | OCRResult | OCR模型的識別結(jié)果對象 |
初始化對象是疲勞測試的關(guān)鍵設(shè)計,如果每次都 new 一個對象,系統(tǒng)運行一段時間后就會崩潰。
paddleOCR方法實現(xiàn)對于路徑圖片的文字識別提取,代碼如下:
string paddleOCR(string imagepath) { var imagebyte = File.ReadAllBytes(imagepath); oCRParameter.cpu_math_library_num_threads = 10;// 預(yù)測并發(fā)線程數(shù) oCRParameter.enable_mkldnn = false; // web部署該值建議設(shè)置為0,否則出錯,內(nèi)存如果使用很大,建議該值也設(shè)置為0. oCRParameter.cls = false; // 是否執(zhí)行文字方向分類;默認false oCRParameter.use_angle_cls = false; // 是否開啟方向檢測,用于檢測識別180旋轉(zhuǎn) oCRParameter.det_db_score_mode = false; // 是否使用多段線,即文字區(qū)域是用多段線還是用矩形 oCRParameter.det_db_unclip_ratio = 1.6f; engi = new PaddleOCREngine(config, oCRParameter); ocrResult = engi.DetectText(imagebyte); engi.Dispose(); if (ocrResult != null) { return ocrResult.Text; } return ""; }
paddleOCR方法僅需要提供一個圖片完整路徑參數(shù)即可,方法中的參數(shù)對象需要說明一下,見下表:
序號 | 參數(shù)名 | 說明 |
---|---|---|
1 | cpu_math_library_num_threads | CPU預(yù)測時的線程數(shù),在機器核數(shù)充足的情況下,該值越大,預(yù)測速度越快;在我們應(yīng)用里設(shè)置為10 |
2 | enable_mkldnn | 即是否使用mkldnn庫, web部署該值建議設(shè)置為false,否則出錯,內(nèi)存如果使用很大,建議該值也設(shè)置為false,在這里我們設(shè)置為false |
3 | cls | 是否執(zhí)行文字方向分類,在這里我們設(shè)置為false |
4 | use_angle_cls | 是否開啟方向檢測,用于檢測識別180旋轉(zhuǎn),在這里我們設(shè)置為false |
5 | det_db_score_mode | 是否使用多段線,即文字區(qū)域是用多段線還是用矩形,在這里我們設(shè)置為false |
6 | det_db_unclip_ratio | 表示文本框的緊致程度,越小則文本框更靠近文本,在這里我們使用了默認值 1.6f |
調(diào)用示例
在Form上假設(shè)有按鈕 Button1,則其點擊事件的調(diào)用代碼示例如下:
private void Button1_Click(object sender, EventArgs e) { OpenFileDialog ofd = new OpenFileDialog(); ofd.Filter = "*.*|*.bmp;*.jpg;*.jpeg;*.tiff;*.tiff;*.png"; if (ofd.ShowDialog() != DialogResult.OK) return; string rv2 = paddleOCR(ofd.FileName); MessageBox.Show("共識別提取了"+rv2.Length.ToString()+"個文字\r\n"+ rv2, "識別結(jié)果"); return; }
小結(jié)
在實際的運行中,三臺機器同時運行,有兩臺機器運行了7天以上暫無報錯,一臺運行了5天左右報錯,唯一的區(qū)別在于報錯機器的顯卡配置較低,不同于其它兩臺機器??傮w來說對于幾個小時就會出錯,提升了不少,也給我們監(jiān)控運行狀況提供了空間。
本實例是根據(jù)客戶提供的電子圖片類型、目錄結(jié)構(gòu)、JSON配置文件進行的定制開發(fā),在實際應(yīng)用我們要根據(jù)情況進行參數(shù)的設(shè)置和設(shè)計的調(diào)整,在測試中我們發(fā)現(xiàn)通過本實例的參數(shù)設(shè)置可以多識別出一些文字,而且識別率還是比較準確的。
到此這篇關(guān)于C# PaddleOCRSharp OCR進行疲勞測試的文章就介紹到這了,更多相關(guān)C# OCR疲勞測試內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
C#結(jié)合數(shù)據(jù)庫實現(xiàn)驗證識別ID卡內(nèi)容的方法
這篇文章主要介紹了C#結(jié)合數(shù)據(jù)庫實現(xiàn)驗證識別ID卡內(nèi)容的方法,非常實用的功能,需要的朋友可以參考下2014-07-07C#調(diào)用C++DLL傳遞結(jié)構(gòu)體數(shù)組的終極解決方案
這篇文章主要介紹了C#調(diào)用C++DLL傳遞結(jié)構(gòu)體數(shù)組的終極解決方案的相關(guān)資料,需要的朋友可以參考下2017-01-01在winform中實現(xiàn)雙向數(shù)據(jù)綁定的方法
雙向數(shù)據(jù)綁定是一種允許我們創(chuàng)建持久連接的技術(shù),使模型數(shù)據(jù)和用戶界面(UI)之間的交互能夠自動同步,今天我想通過winform中DataGridView控件為例,介紹在winform中如何實現(xiàn)雙向數(shù)據(jù)綁定,需要的朋友可以參考下2024-03-03C# List<T> Contains<T>()的用法小結(jié)
本篇文章主要是對C#中List<T> Contains<T>()的用法進行了總結(jié)介紹,需要的朋友可以過來參考下,希望對大家有所幫助2014-01-01