python利用Tesseract識別驗證碼的方法示例
無論是是自動化登錄還是爬蟲,總繞不開驗證碼,這次就來談?wù)刾ython中光學(xué)識別驗證碼模塊tesserocr
和pytesseract
。tesserocr
和pytesseract
是Python的一個OCR識別庫,但其實是對tesseract
做的一層Python API封裝,pytesseract
是Google的Tesseract-OCR
引擎包裝器;所以它們的核心是tesseract
,因此在安裝tesserocr
之前,我們需要先安裝tesseract
。
下載安裝
下載地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe
下載完成后,雙擊安裝,可以勾選Additional language data(download)
選項來安裝OCR識別支持的語言包,但下載語言包實在是慢,我們可以直接從https://github.com/tesseract-ocr/tessdata/下載zip的語言包壓縮文件,解壓后將tessdata-master
中的文件復(fù)制到Tesseract
的安裝目錄C:\Program Files (x86)\Tesseract-OCR\tessdata
目錄下,最后我們配置下環(huán)境變量,我們將C:\Program Files (x86)\Tesseract-OCR
添加到環(huán)境變量中。進入命令提示符,輸入tesseract
,顯示下圖結(jié)果,說明配置完成
查看安裝了的語言包:tesseract --list-langs
顯示我一共安裝了167種語言包,里邊包含英文或者其他字符。
測試
實驗用的二維碼
基本使用語法
tesseract image.png result
(tesseract 圖片名稱 生成文件名稱)
結(jié)果
由結(jié)果來看,識別出來了P、2和X,但是把C識別成了G,識別度還是比較高,接下來看在python中的使用
python引入tesseract
在python下使用pip命令即可完成下載安裝 pip install pytesseract
識別驗證碼腳本
import pytesseract from PIL import Image im=Image.open('pin.png') print(pytesseract.image_to_string(im))
結(jié)果
這樣識別的結(jié)果同樣跟上文一樣,個別字符識別的不是很準(zhǔn)確
圖像處理
現(xiàn)在網(wǎng)站上的二維碼設(shè)計的通常很難復(fù)雜,如果直接識別的話很難識別出來,下面這段代碼是進行灰度處理和二值化
import pytesseract from PIL import Image im=Image.open('5.jpg') #進行置灰處理 im=im.convert('L') #這個是二值化閾值 threshold=150 table=[] for i in range(256): if i<threshold: table.append(0) else: table.append(1) #通過表格轉(zhuǎn)換成二進制圖片,1的作用是白色,0就是黑色 im=im.point(table,"1") im.show() print(pytesseract.image_to_string(im))
原圖
置灰和二值化后
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python實現(xiàn)文件只讀屬性的設(shè)置與取消
這篇文章主要為大家詳細(xì)介紹了Python如何實現(xiàn)設(shè)置文件只讀與取消文件只讀的功能,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2023-07-07Centos安裝python3與scapy模塊的問題及解決方法
這篇文章主要介紹了Centos安裝python3與scapy模塊的問題,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-07-07Python初學(xué)時購物車程序練習(xí)實例(推薦)
下面小編就為大家?guī)硪黄狿ython初學(xué)時購物車程序練習(xí)實例(推薦)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-08-08Python+Pandas 獲取數(shù)據(jù)庫并加入DataFrame的實例
今天小編就為大家分享一篇Python+Pandas 獲取數(shù)據(jù)庫并加入DataFrame的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-07-07scrapy數(shù)據(jù)存儲在mysql數(shù)據(jù)庫的兩種方式(同步和異步)
這篇文章主要介紹了scrapy數(shù)據(jù)存儲在mysql數(shù)據(jù)庫的兩種方式(同步和異步),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02python設(shè)計并實現(xiàn)平面點類Point的源代碼
這篇文章主要介紹了python-設(shè)計并實現(xiàn)平面點類Point,定義一個平面點類Point,對其重載運算符關(guān)系運算符,關(guān)系運算以距離坐標(biāo)原點的遠(yuǎn)近作為基準(zhǔn),需要的朋友可以參考下2024-05-05Python列表list常用內(nèi)建函數(shù)實例小結(jié)
這篇文章主要介紹了Python列表list常用內(nèi)建函數(shù),結(jié)合實例形式總結(jié)分析了Python列表list常見內(nèi)建函數(shù)的功能、使用方法及相關(guān)操作注意事項,需要的朋友可以參考下2019-10-10