Python解析最簡單的驗證碼
最近在學(xué)python,正好遇到學(xué)校需要選宿舍,就用python寫了一個搶宿舍的軟件。其中有一個模塊是用來登陸的,登陸的時候需要輸入驗證碼,不過后來發(fā)現(xiàn)了直接可以繞過驗證碼直接登陸的bug。不過這是另外的話題,開始的時候我并沒有發(fā)現(xiàn)這個隱藏起來的秘密,所以我就寫了這個python代碼段用來實現(xiàn)解析驗證碼的功能。
我們學(xué)校的驗證碼是最簡單的驗證碼,形式大概如下:
其中這個圖片的大小是60X24像素的,大概每個數(shù)字的大小是15X24像素。
觀察這個驗證碼之后可以發(fā)現(xiàn),驗證碼中只有數(shù)字而且數(shù)字的字體很規(guī)范,只不過每個數(shù)字的顏色不同而已。
當時有2個思路
1.將整張照片平均切片成四分,每個數(shù)字一個圖片,然后掃描每張照片的每個像素,為每個數(shù)字初始化一個特征碼buff,大小為15X24的byte,即總共45Byte。
先取背景色,可以知道(0,0)位置是背景色。然后掃描數(shù)字的每個像素和背景色對比如果相同則為1不同則為0。然后分析出0-9這10個字符的特征值。等需要解析驗證碼的時候直接將驗證碼圖片分片取特征值跟標準特征值對比就可以了。
2.我們可以想象0-9這10個字符每個字符的字形都不一樣,則有可能比如9這個數(shù)字在像素(2,12)(1,13)這個位置是獨有的,也就是說分片圖片中假如(2,12)位置的像素點和背景色一致,則該分片圖片一定不是9否則一定是9。
上面兩種方法有一個bug就是這個圖片的第一個數(shù)字有一定的偏移,比如其他位置的數(shù)字是從第3列開始的,它可能從第4列,這個我就沒具體分析了。不過這個也有辦法解決,我用的辦法就是從第一列非背景色的地方算起。不管什么圖片怎么偏移,它x軸向?qū)τ谧约鹤钭筮叺狞c的x方向的差值是不變的。
最后我的實現(xiàn)方法就是按第二種,因為這種方法是最快的,只需要取特征像素處的點就可以。
我的方法是這樣的,首先選用材料圖片三張,包含0-9這10個字符,然后校驗他們每個像素與背景色是否一致,如果一致則把這個數(shù)字放到對應(yīng)這個像素的hash表里面。
最后分析這個hash表找出哪個像素是1個數(shù)字獨有的,哪個像素是2個數(shù)字獨有的,哪個像素3個數(shù)字獨有的,最后解析這個表。
找到可以唯一確定一個數(shù)字的方法,比如(0,18),(0,19)這兩個數(shù)字可以唯一確定數(shù)字1。
然后得出一個hash字典:
NumberKeyPixel={ [(7,10),(0,12),(0,10),(0,11),(0,8),(1,14),(1,15)], [(4,8)], [(0,18),(0,19)], [], [(5,7)], [(0,4),(0,10)], [(2,6)], [(2,16)], [(0,12)], [(2,13)] }
使用的時候,只需依次比對這些像素點就可以判斷這張圖片的驗證碼值了。
下面介紹具體代碼
1.首先是分析的時候的代碼,用來獲得數(shù)字的特征像素:
from PIL import Image import os #存放材料圖片的路徑 path="C:\\vaildpic\\" #取得材料圖片 images=os.listdir(path) 存放數(shù)字的切片,0-9的圖片 nubimgs=[] #存放背景色 backpixels=[] #存放像素對應(yīng)表 pixDir={} #首非背景色偏移值 pixBlankEndPos=[] #這個函數(shù)用來取得這個圖片中數(shù)字結(jié)構(gòu)的偏移值 def GetLastBlankPosition(materialPic,x=0): bc=materialPic.getpixel((0,0)) for i in range(15): for j in range(24): if materialPic.getpixel((i+x,j))!=bc: return i #因為只是解析沒有寫的很嚴謹,這個地方 #取得目標文件夾的圖片 for image in images: if os.path.isdir(path+image): continue image=Image.open(path+image) #對于每張圖片切成四份,存到字典中,取得相應(yīng)的背景色,首非背景色偏移x,接下來計算用 for i in range(4): ma=image.crop((i*15,0,(i+1)*15,24)) nubimgs.append(ma) backpixels.append(image.getpixel((0,0))) pixBlankEndPos.append(GetLastBlankPosition(ma)) print pixBlankEndPos #對于每個數(shù)字圖片的每個像素,如果對應(yīng)位置非背景色,將該圖片放到該位置的字典中,其結(jié)構(gòu)如下,接下來用下面的數(shù)據(jù)統(tǒng)計來取得每個數(shù)字的特征像素 ''' pixDir[pixel(x-x_offset,y),imgSeq]=picture<br>''' for i in range(15): for j in range(24): ai=None aj=None pixDir[(i,j)]={} for imgNum in range(nubimgs.__len__()): if(nubimgs[imgNum].getpixel((i,j))!=backpixels[imgNum]): pixDir[(i-pixBlankEndPos[imgNum],j)][imgNum]=nubimgs[imgNum] """nubimgs[0].putpixel ((i,j),nubimgs[imgNum].getpixel((i,j)))""" '''下面將只有n個數(shù)字有的像素存到對應(yīng)的文件夾中''' for pix in pixDir.items(): if pix[1].__len__()<=6: print pix i=0 for pic in pix[1].items(): i+=1 if not os.path.exists(path+str(pix[1].__len__())): os.mkdir(path+str(pix[1].__len__())) pic[1].save(os.path.join(path+str(pix[1].__len__()),str(pix[0][0])+"_"+str(pix[0][1])+"__"+str(i)+".bmp"))
材料圖片:
解析結(jié)果如下
對應(yīng)的文件夾中就放著n個圖片共享的像素,接下來的分析我是手動分析的,其實也可以用程序?qū)?,不過要預(yù)先告訴程序哪個片段是什么數(shù)字,可以通過把圖片名起為對應(yīng)驗證碼來解析。因為這是后想到的,就沒有實現(xiàn)了。
2.接下來就是使用得到的特征值來解析驗證碼
下面的方法用來取得背景色,方法同上面解析一樣,沿圖片最上面一層取顏色,因為最上面不繪制
def getBackColors(bmp): list=[] for i in range(60): if bmp.getpixel((i,0)) not in list: list.append(bmp.getpixel((i,0))) return list
同上面解析一樣,取得首繪偏移值
def GetLastBlankPosition(materialPic,x=0): bc=getBackColors(materialPic) for i in range(15): for j in range(24): if materialPic.getpixel((i+x,j)) not in bc: return i
解析驗證碼,利用特征嗎判斷
def GetVaildJpgNumber(bmp): print 'GetVaildJpgNumber' vaildStr=""; backColors=getBackColors(bmp)<br> #對于一個驗證碼的4個數(shù)字分別驗證,其x范圍為n*15~(n+1)*15 for pos in range(4):<br> #取得對應(yīng)位置的首繪偏移值 offset=GetLastBlankPosition(bmp,pos*15)<br> #對于0-9,分別判斷對應(yīng)的特征是否為背景色,如果不是解析完成,是背景色則判斷下一個數(shù)字,因為3的像素基本和其他圖像共享,所以如果最后沒有找到特定的數(shù)字,就是3 for nr in range(0,10): isthisNr=True for pix in NumberKeyPixel[nr]: if pix[0]+offset>=15: isthisNr=False break if bmp.getpixel((pix[0]+offset+pos*15,pix[1])) in backColors : isthisNr=False break; if isthisNr and NumberKeyPixel[nr].__len__()!=0 : vaildStr+=str(nr) break if vaildStr.__len__()==pos: vaildStr+='3' print vaildStr return vaildStr
從網(wǎng)絡(luò)抓取驗證碼,使用的是httplib,其中我們學(xué)校名我已替代為myschool
def GetVaildJpg (): print 'GetVaildJpg' headers={ 'Accept': 'image/png, image/svg+xml, image/*;q=0.8, */*;q=0.5', 'Referer': 'http://zcc.myschool.edu.cn/', 'Accept-Language': 'zh-Hans-CN,zh-Hans;q=0.8,en-US;q=0.5,en;q=0.3', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko', 'Accept-Encoding': 'gzip, deflate', 'Host': 'zcc.myschool.edu.cn', 'DNT': '1', 'Connection': 'Keep-Alive', 'Cookie': sessionId } httpClient=httplib.HTTPConnection('zcc.myschool.edu.cn',80,timeout=300) httpClient.request("GET",'http://zcc.myschool.edu.cn/image.jsp',None,headers) response=httpClient.getresponse() '''print response.getheaders()''' stBmp=response.read() bmp=Image.open(BytesIO(stBmp)) bmp.save('D:\PROJECT\PYTHON\catchDorm\catch.bmp') '''bmp.show()''' return GetVaildJpgNumber(bmp)
以上內(nèi)容給大家介紹了Python解析最簡單的驗證碼的相關(guān)知識,希望大家喜歡。
相關(guān)文章
python TK庫簡單應(yīng)用(實時顯示子進程輸出)
這篇文章主要介紹了python TK庫簡單應(yīng)用(實時顯示子進程輸出),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-10-10python訓(xùn)練數(shù)據(jù)時打亂訓(xùn)練數(shù)據(jù)與標簽的兩種方法小結(jié)
今天小編就為大家分享一篇python訓(xùn)練數(shù)據(jù)時打亂訓(xùn)練數(shù)據(jù)與標簽的兩種方法小結(jié),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11Python統(tǒng)計單詞出現(xiàn)的次數(shù)
最近經(jīng)理交給我一項任務(wù),統(tǒng)計一個文件中每個單詞出現(xiàn)的次數(shù),列出出現(xiàn)頻率最多的5個單詞。本文給大家?guī)砹藀ython 統(tǒng)計單詞次數(shù)的思路解析,需要的朋友參考下吧2018-04-04Python使用openpyxl實現(xiàn)Excel超鏈接批量化設(shè)置
在Excel中,超鏈接是一種非常有用的功能,本文我們將介紹如何使用Python來處理Excel中的超鏈接,以及如何將超鏈接與對應(yīng)的工作表鏈接起來,需要的可以參考一下2023-07-07使用sublime text3搭建Python編輯環(huán)境的實現(xiàn)
這篇文章主要介紹了使用sublime text3搭建Python編輯環(huán)境的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01