欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

如何識別高級的驗證碼的技術總結(jié)第1/4頁

 更新時間:2008年06月26日 22:24:13   作者:  
這個問題,本身是人工智能,計算機視覺,模式識別領域的一個難題。作為破解者來說,是出于劣勢地位。要做的很好,是很難得。總體來說,我走的是比較學院派的線路,能真正的破解難度比較高的驗證碼,不同于網(wǎng)上很多不太入流的破解方法。
一、驗證碼的基本知識

  1. 驗證碼的主要目的是強制人機交互來抵御機器自動化攻擊的。

  2. 大部分的驗證碼設計者并不得要領,不了解圖像處理,機器視覺,模式識別,人工智能的基本概念。

  3. 利用驗證碼,可以發(fā)財,當然要犯罪:比如招商銀行密碼只有6位,驗證碼形同虛設,計算機很快就能破解一個有錢的賬戶,很多帳戶是可以網(wǎng)上交易的。

  4. 也有設計的比較好的,比如Yahoo,Google,Microsoft等。而國內(nèi)Tencent的中文驗證碼雖然難,但算不上好。

  二、人工智能,模式識別,機器視覺,圖像處理的基本知識

  1)主要流程:

  比如我們要從一副圖片中,識別出驗證碼;比如我們要從一副圖片中,檢測并識別出一張人臉。 大概有哪些步驟呢?

  1.圖像采集:驗證碼呢,就直接通過HTTP抓HTML,然后分析出圖片的url,然后下載保存就可以了。 如果是人臉檢測識別,一般要通過視屏采集設備,采集回來,通過A/D轉(zhuǎn)操作,存為數(shù)字圖片或者視頻頻。

  2.預處理:檢測是正確的圖像格式,轉(zhuǎn)換到合適的格式,壓縮,剪切出ROI,去除噪音,灰度化,轉(zhuǎn)換色彩空間這些。

  3.檢測:車牌檢測識別系統(tǒng)要先找到車牌的大概位置,人臉檢測系統(tǒng)要找出圖片中所有的人臉(包括疑似人臉);驗證碼識別呢,主要是找出文字所在的主要區(qū)域。

  4.前處理:人臉檢測和識別,會對人臉在識別前作一些校正,比如面內(nèi)面外的旋轉(zhuǎn),扭曲等。我這里的驗證碼識別,“一般”要做文字的切割

  5.訓練:通過各種模式識別,機器學習算法,來挑選和訓練合適數(shù)量的訓練集。不是訓練的樣本越多越好。過學習,泛化能力差的問題可能在這里出現(xiàn)。這一步不是必須的,有些識別算法是不需要訓練的。

  6.識別:輸入待識別的處理后的圖片,轉(zhuǎn)換成分類器需要的輸入格式,然后通過輸出的類和置信度,來判斷大概可能是哪個字母。識別本質(zhì)上就是分類。

  2)關鍵概念:

  圖像處理:一般指針對數(shù)字圖像的某種數(shù)學處理。比如投影,鈍化,銳化,細化,邊緣檢測,二值化,壓縮,各種數(shù)據(jù)變換等等。

  1.二值化:一般圖片都是彩色的,按照逼真程度,可能很多級別。為了降低計算復雜度,方便后續(xù)的處理,如果在不損失關鍵信息的情況下,能將圖片處理成黑白兩種顏色,那就最好不過了。

  2.細化:找出圖像的骨架,圖像線條可能是很寬的,通過細化將寬度將為1,某些地方可能大于1。不同的細化算法,可能有不同的差異,比如是否更靠近線條中間,比如是否保持聯(lián)通行等。

  3.邊緣檢測:主要是理解邊緣的概念。邊緣實際上是圖像中圖像像素屬性變化劇烈的地方。可能通過一個固定的門限值來判斷,也可能是自適應的。門限可能是圖像全局的,也可能是局部的。不能說那個就一定好,不過大部分時候,自適應的局部的門限可能要好點。被分析的,可能是顏色,也可能是灰度圖像的灰度。

  機器視覺:利用計算機來模式實現(xiàn)人的視覺。 比如物體檢測,定位,識別。按照對圖像理解的層次的差別,分高階和低階的理解。

  模式識別:對事物或者現(xiàn)象的某種表示方式(數(shù)值,文字,我們這里主要想說的是數(shù)值),通過一些處理和分析,來描述,歸類,理解,解釋這些事物,現(xiàn)象及其某種抽象。

  人工智能:這種概念比較寬,上面這些都屬于人工智能這個大的方向。簡單點不要過分學院派的理解就是,把人類的很“智能”的東西給模擬出來協(xié)助生物的人來處理問題,特別是在計算機里面。

相關文章

最新評論