Python+Pillow+Pytesseract實現(xiàn)驗證碼識別
昨天十行代碼實現(xiàn)文字識別,感覺怎樣,是不是很爽
今天咋們繼續(xù)利用pillow和pytesseract來實現(xiàn)驗證碼的識別
一、環(huán)境配置
需要 pillow 和 pytesseract 這兩個庫,pip install 安裝就好了。
pip?install?pillow?-i?http://pypi.douban.com/simple?--trusted-host?pypi.douban.com pip?install?pytesseract?-i?http://pypi.douban.com/simple?--trusted-host?pypi.douban.com
安裝好Tesseract-OCR.exe
pytesseract 庫的配置:搜索找到pytesseract.py,打開該.py文件,找到 tesseract_cmd,改變它的值為剛才安裝 tesseract.exe 的路徑。
二、驗證碼識別
識別驗證碼,需要先對圖像進(jìn)行預(yù)處理,去除會影響識別準(zhǔn)確度的線條或噪點,提高識別準(zhǔn)確度。
實例1
import?cv2?as?cv import?pytesseract from?PIL?import?Image def?recognize_text(image): ????#?邊緣保留濾波??去噪 ????dst?=?cv.pyrMeanShiftFiltering(image,?sp=10,?sr=150) ????#?灰度圖像 ????gray?=?cv.cvtColor(dst,?cv.COLOR_BGR2GRAY) ????#?二值化 ????ret,?binary?=?cv.threshold(gray,?0,?255,?cv.THRESH_BINARY_INV?|?cv.THRESH_OTSU) ????#?形態(tài)學(xué)操作???腐蝕??膨脹 ????erode?=?cv.erode(binary,?None,?iterations=2) ????dilate?=?cv.dilate(erode,?None,?iterations=1) ????cv.imshow('dilate',?dilate) ????#?邏輯運算??讓背景為白色??字體為黑??便于識別 ????cv.bitwise_not(dilate,?dilate) ????cv.imshow('binary-image',?dilate) ????#?識別 ????test_message?=?Image.fromarray(dilate) ????text?=?pytesseract.image_to_string(test_message) ????print(f'識別結(jié)果:{text}') src?=?cv.imread(r'./test/044.png') cv.imshow('input?image',?src) recognize_text(src) cv.waitKey(0) cv.destroyAllWindows()
運行效果如下:
識別結(jié)果:3n3D
Process finished with exit code 0
實例2
import?cv2?as?cv import?pytesseract from?PIL?import?Image def?recognize_text(image): ????#?邊緣保留濾波??去噪 ????blur?=cv.pyrMeanShiftFiltering(image,?sp=8,?sr=60) ????cv.imshow('dst',?blur) ????#?灰度圖像 ????gray?=?cv.cvtColor(blur,?cv.COLOR_BGR2GRAY) ????#?二值化 ????ret,?binary?=?cv.threshold(gray,?0,?255,?cv.THRESH_BINARY_INV?|?cv.THRESH_OTSU) ????print(f'二值化自適應(yīng)閾值:{ret}') ????cv.imshow('binary',?binary) ????#?形態(tài)學(xué)操作??獲取結(jié)構(gòu)元素??開操作 ????kernel?=?cv.getStructuringElement(cv.MORPH_RECT,?(3,?2)) ????bin1?=?cv.morphologyEx(binary,?cv.MORPH_OPEN,?kernel) ????cv.imshow('bin1',?bin1) ????kernel?=?cv.getStructuringElement(cv.MORPH_OPEN,?(2,?3)) ????bin2?=?cv.morphologyEx(bin1,?cv.MORPH_OPEN,?kernel) ????cv.imshow('bin2',?bin2) ????#?邏輯運算??讓背景為白色??字體為黑??便于識別 ????cv.bitwise_not(bin2,?bin2) ????cv.imshow('binary-image',?bin2) ????#?識別 ????test_message?=?Image.fromarray(bin2) ????text?=?pytesseract.image_to_string(test_message) ????print(f'識別結(jié)果:{text}') src?=?cv.imread(r'./test/045.png') cv.imshow('input?image',?src) recognize_text(src) cv.waitKey(0) cv.destroyAllWindows()
運行效果如下:
二值化自適應(yīng)閾值:181.0
識別結(jié)果:8A62N1
Process finished with exit code 0
實例3
import?cv2?as?cv import?pytesseract from?PIL?import?Image def?recognize_text(image): ????#?邊緣保留濾波??去噪 ????blur?=?cv.pyrMeanShiftFiltering(image,?sp=8,?sr=60) ????cv.imshow('dst',?blur) ????#?灰度圖像 ????gray?=?cv.cvtColor(blur,?cv.COLOR_BGR2GRAY) ????#?二值化??設(shè)置閾值??自適應(yīng)閾值的話?黃色的4會提取不出來 ????ret,?binary?=?cv.threshold(gray,?185,?255,?cv.THRESH_BINARY_INV) ????print(f'二值化設(shè)置的閾值:{ret}') ????cv.imshow('binary',?binary) ????#?邏輯運算??讓背景為白色??字體為黑??便于識別 ????cv.bitwise_not(binary,?binary) ????cv.imshow('bg_image',?binary) ????#?識別 ????test_message?=?Image.fromarray(binary) ????text?=?pytesseract.image_to_string(test_message) ????print(f'識別結(jié)果:{text}') src?=?cv.imread(r'./test/045.jpg') cv.imshow('input?image',?src) recognize_text(src) cv.waitKey(0) cv.destroyAllWindows()
運行效果如下:
二值化設(shè)置的閾值:185.0
識別結(jié)果:7364
Process finished with exit code 0
到此這篇關(guān)于Python+Pillow+Pytesseract實現(xiàn)驗證碼識別的文章就介紹到這了,更多相關(guān)Python驗證碼識別內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
關(guān)于Python函數(shù)對象的名稱空間和作用域
這篇文章主要介紹了關(guān)于Python函數(shù)對象的名稱空間和作用域,數(shù)據(jù)的名稱是儲存到棧區(qū),而數(shù)據(jù)的內(nèi)容是儲存到堆區(qū),當(dāng)我們要去使用數(shù)據(jù)的內(nèi)容時,我們可以通過數(shù)據(jù)的名稱來直接去表示數(shù)據(jù)的內(nèi)容,需要的朋友可以參考下2023-04-04Python?Jinja2?庫靈活性廣泛性應(yīng)用場景實例解析
Jinja2,作為Python中最流行的模板引擎之一,為開發(fā)者提供了強(qiáng)大的工具,用于在Web應(yīng)用和其他項目中生成動態(tài)內(nèi)容,本文將深入研究?Jinja2?庫的各個方面,提供更豐富的示例代碼,能夠充分理解其靈活性和廣泛應(yīng)用的場景2024-01-01