快捷導(dǎo)航

Python新版極驗(yàn)驗(yàn)證碼識(shí)別驗(yàn)證碼教程詳解

更新時(shí)間：2023年02月20日 14:44:00 作者：愛吃餅干的小白鼠

這篇文章主要介紹了Python新版極驗(yàn)驗(yàn)證碼識(shí)別驗(yàn)證碼，極驗(yàn)驗(yàn)證是一種在計(jì)算機(jī)領(lǐng)域用于區(qū)分自然人和機(jī)器人的，通過簡單集成的方式，為開發(fā)者提供安全、便捷的云端驗(yàn)證服務(wù)

前言

（結(jié)尾有彩蛋歐）

目前，許多網(wǎng)站采取各種各樣的措施來反爬蟲，其中一個(gè)措施便是使用驗(yàn)證碼。隨著技術(shù)的發(fā)展，驗(yàn)證碼的花樣越來越多。驗(yàn)證碼最初是幾個(gè)數(shù)字組合的簡單的圖形驗(yàn)證碼，后來加入了英文字母和混淆曲線。有的網(wǎng)站還可能看到中文字符的驗(yàn)證碼，這使得識(shí)別愈發(fā)困難。

后來 12306 驗(yàn)證碼的出現(xiàn)使得行為驗(yàn)證碼開始發(fā)展起來，用過 12306 的用戶肯定多少為它的驗(yàn)證碼頭疼過。我們需要識(shí)別文字，點(diǎn)擊與文字描述相符的圖片，驗(yàn)證碼完全正確，驗(yàn)證才能通過?，F(xiàn)在這種交互式驗(yàn)證碼越來越多，如極驗(yàn)滑動(dòng)驗(yàn)證碼需要滑動(dòng)拼合滑塊才可以完成驗(yàn)證，點(diǎn)觸驗(yàn)證碼需要完全點(diǎn)擊正確結(jié)果才可以完成驗(yàn)證，另外還有滑動(dòng)宮格驗(yàn)證碼、計(jì)算題驗(yàn)證碼等。

驗(yàn)證碼變得越來越復(fù)雜，爬蟲的工作也變得愈發(fā)艱難。有時(shí)候我們必須通過驗(yàn)證碼的驗(yàn)證才可以訪問頁面。本章就專門針對(duì)驗(yàn)證碼的識(shí)別做統(tǒng)一講解。

接下來會(huì)涉及的驗(yàn)證碼有普通圖形驗(yàn)證碼、極驗(yàn)滑動(dòng)驗(yàn)證碼、點(diǎn)觸驗(yàn)證碼、微博宮格驗(yàn)證碼，這些驗(yàn)證碼識(shí)別的方式和思路各有不同。了解這幾個(gè)驗(yàn)證碼的識(shí)別方式之后，我們可以舉一反三，用類似的方法識(shí)別其他類型驗(yàn)證碼。

環(huán)境使用

python 3.9
pycharm

上節(jié)回顧

上節(jié)我們了解了可以直接利用 tesserocr 來識(shí)別簡單的圖形驗(yàn)證碼。近幾年出現(xiàn)了一些新型驗(yàn)證碼，其中比較有代表性的就是極驗(yàn)驗(yàn)證碼，它需要拖動(dòng)拼合滑塊才可以完成驗(yàn)證，相對(duì)圖形驗(yàn)證碼來說識(shí)別難度上升了幾個(gè)等級(jí)。本節(jié)將講解極驗(yàn)驗(yàn)證碼的識(shí)別過程。

本節(jié)目標(biāo)

我們的目標(biāo)是用程序來識(shí)別并通過極驗(yàn)驗(yàn)證碼的驗(yàn)證，包括分析識(shí)別思路、識(shí)別缺口位置、生成滑塊拖動(dòng)路徑、模擬實(shí)現(xiàn)滑塊拼合通過驗(yàn)證等步驟。

準(zhǔn)備工作

本次我們使用的 Python 庫是 Selenium，瀏覽器為 Chrome。請(qǐng)確保已經(jīng)正確安裝 Selenium 庫、Chrome 瀏覽器，并配置 ChromeDriver，相關(guān)流程可以參考我寫的其他博文說明。

了解極驗(yàn)驗(yàn)證碼

現(xiàn)在極驗(yàn)驗(yàn)證碼已經(jīng)更新到 3.0 版本。全球有 16 萬家企業(yè)使用極驗(yàn)，每天服務(wù)響應(yīng)超過 4 億次。極驗(yàn)驗(yàn)證碼廣泛應(yīng)用于直播視頻、金融服務(wù)、電子商務(wù)、游戲娛樂、企業(yè)等各大類型網(wǎng)站。下面圖中是斗魚、魅族的登錄頁面，它們都對(duì)接了極驗(yàn)驗(yàn)證碼。

極驗(yàn)驗(yàn)證碼的特點(diǎn)

極驗(yàn)驗(yàn)證碼相較于圖形驗(yàn)證碼來說識(shí)別難度更大。對(duì)于極驗(yàn)驗(yàn)證碼 3.0 版本，我們首先點(diǎn)擊按鈕進(jìn)行智能驗(yàn)證。如果驗(yàn)證不通過，則會(huì)彈出滑動(dòng)驗(yàn)證的窗口，拖動(dòng)滑塊拼合圖像進(jìn)行驗(yàn)證。之后三個(gè)加密參數(shù)會(huì)生成，通過表單提交到后臺(tái)，后臺(tái)還會(huì)進(jìn)行一次驗(yàn)證。

極驗(yàn)驗(yàn)證碼還增加了機(jī)器學(xué)習(xí)的方法來識(shí)別拖動(dòng)軌跡。官方網(wǎng)站的安全防護(hù)有如下幾點(diǎn)說明。

三角防護(hù)之防模擬

惡意程序模仿人類行為軌跡對(duì)驗(yàn)證碼進(jìn)行識(shí)別。針對(duì)模擬，極驗(yàn)擁有超過 4000 萬人機(jī)行為樣本的海量數(shù)據(jù)。利用機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)構(gòu)建線上線下的多重靜態(tài)、動(dòng)態(tài)防御模型。識(shí)別模擬軌跡，界定人機(jī)邊界。

三角防護(hù)之防偽造

惡意程序通過偽造設(shè)備瀏覽器環(huán)境對(duì)驗(yàn)證碼進(jìn)行識(shí)別。針對(duì)偽造，極驗(yàn)利用設(shè)備基因技術(shù)。深度分析瀏覽器的實(shí)際性能來辨識(shí)偽造信息。同時(shí)根據(jù)偽造事件不斷更新黑名單，大幅提高防偽造能力。

三角防護(hù)之防暴力

惡意程序短時(shí)間內(nèi)進(jìn)行密集的攻擊，對(duì)驗(yàn)證碼進(jìn)行暴力識(shí)別針對(duì)暴力，極驗(yàn)擁有多種驗(yàn)證形態(tài)，每一種驗(yàn)證形態(tài)都有利用神經(jīng)網(wǎng)絡(luò)生成的海量圖庫儲(chǔ)備，每一張圖片都是獨(dú)一無二的，且圖庫不斷更新，極大程度提高了暴力識(shí)別的成本。

識(shí)別思路

對(duì)于應(yīng)用了極驗(yàn)驗(yàn)證碼的網(wǎng)站，如果我們直接模擬表單提交，加密參數(shù)的構(gòu)造是個(gè)問題，需要分析其加密和校驗(yàn)邏輯，相對(duì)煩瑣。所以我們采用直接模擬瀏覽器動(dòng)作的方式來完成驗(yàn)證。在 Python 中，我們可以使用 Selenium 來完全模擬人的行為的方式來完成驗(yàn)證，此驗(yàn)證成本相比直接去識(shí)別加密算法少很多。

首先我們找到一個(gè)帶有極驗(yàn)驗(yàn)證的網(wǎng)站，最合適的當(dāng)然為極驗(yàn)官方后臺(tái)了。此按鈕為智能驗(yàn)證按鈕。一般來說，如果是同一個(gè)會(huì)話，一段時(shí)間內(nèi)第二次點(diǎn)擊會(huì)直接通過驗(yàn)證。如果智能識(shí)別不通過，則會(huì)彈出滑動(dòng)驗(yàn)證窗口，我們要拖動(dòng)滑塊拼合圖像完成二步驗(yàn)證，驗(yàn)證成功后，驗(yàn)證按鈕變成如圖所示的狀態(tài)。

接下來，我們便可以提交表單了。

所以，識(shí)別驗(yàn)證需要完成如下三步。

模擬點(diǎn)擊驗(yàn)證按鈕
識(shí)別滑動(dòng)缺口的位置
模擬拖動(dòng)滑塊

擬點(diǎn)擊驗(yàn)證按鈕

第一步操作是最簡單的，我們可以直接用 Selenium 模擬點(diǎn)擊按鈕即可。

識(shí)別滑動(dòng)缺口的位置

第二步操作識(shí)別缺口的位置比較關(guān)鍵，這里需要用到圖像的相關(guān)處理方法。首先觀察缺口的樣子，缺口的四周邊緣有明顯的斷裂邊緣，邊緣和邊緣周圍有明顯的區(qū)別。我們可以實(shí)現(xiàn)一個(gè)邊緣檢測算法來找出缺口的位置。對(duì)于極驗(yàn)驗(yàn)證碼來說，我們可以利用和原圖對(duì)比檢測的方式來識(shí)別缺口的位置，因?yàn)樵跊]有滑動(dòng)滑塊之前，缺口并沒有呈現(xiàn)。

我們可以同時(shí)獲取兩張圖片。設(shè)定一個(gè)對(duì)比閾值，然后遍歷兩張圖片，找出相同位置像素 RGB 差距超過此閾值的像素點(diǎn)，那么此像素點(diǎn)的位置就是缺口的位置。

模擬拖動(dòng)滑塊

第3步操作看似簡單，但其中的坑比較多。極驗(yàn)驗(yàn)證碼增加了機(jī)器軌跡識(shí)別，勻速移動(dòng)、隨機(jī)速度移動(dòng)等方法都不能通過驗(yàn)證，只有完全模擬人的移動(dòng)軌跡才可以通過驗(yàn)證。人的移動(dòng)軌跡一般是先加速后減速，我們需要模擬這個(gè)過程才能成功。

有了基本的思路之后，我們就用程序來實(shí)現(xiàn)極驗(yàn)驗(yàn)證碼的識(shí)別過程吧。

模擬點(diǎn)擊

首先，我們先模擬登錄，其中 admin 和 PASSWORD 就是登錄極驗(yàn)需要的用戶名和密碼，如果沒有的話可以先注冊(cè)一下。

admin = '[賬號(hào)]'
PASSWORD = '[密碼]'
class CrackGeetest():
    def __init__(self):
        self.url = 'https://account.geetest.com/login'
        self.browser = webdriver.Chrome()
        self.wait = WebDriverWait(self.browser, 20)
        self.email = EMAIL
        self.password = PASSWORD

實(shí)現(xiàn)第一步的操作，也就是模擬點(diǎn)擊初始的驗(yàn)證按鈕。我們定義一個(gè)方法來獲取這個(gè)按鈕，利用顯式等待的方法來實(shí)現(xiàn)，如下所示：

def get_geetest_button(self):
    """
    獲取初始驗(yàn)證按鈕
    :return: 按鈕對(duì)象
    """
    button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'geetest_radar_tip')))
    return button
# 點(diǎn)擊驗(yàn)證按鈕
button = self.get_geetest_button()
button.click()

識(shí)別缺口

接下來識(shí)別缺口的位置。首先獲取前后兩張比對(duì)圖片，二者不一致的地方即為缺口。獲取不帶缺口的圖片，利用 Selenium 選取圖片元素，得到其所在位置和寬高，然后獲取整個(gè)網(wǎng)頁的截圖，圖片裁切出來即可，代碼實(shí)現(xiàn)如下：

def get_position(self):
        img = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_img')))
    time.sleep(2)
    location = img.location
    size = img.size
    top, bottom, left, right = location['y'], location['y'] + size['height'], location['x'], location['x'] + size['width']
    return (top, bottom, left, right)
def get_geetest_image(self, name='captcha.png'):
    top, bottom, left, right = self.get_position()
    print(' 驗(yàn)證碼位置 ', top, bottom, left, right)
    screenshot = self.get_screenshot()
    captcha = screenshot.crop((left, top, right, bottom))
    return captcha

這里 get_position() 函數(shù)首先獲取圖片對(duì)象，獲取它的位置和寬高，隨后返回其左上角和右下角的坐標(biāo)。get_geetest_image() 方法獲取網(wǎng)頁截圖，調(diào)用了 crop() 方法將圖片裁切出來，返回的是 Image 對(duì)象。

接下來我們需要獲取第二張圖片，也就是帶缺口的圖片。要使得圖片出現(xiàn)缺口，只需要點(diǎn)擊下方的滑塊即可。這個(gè)動(dòng)作觸發(fā)之后，圖片中的缺口就會(huì)顯現(xiàn)，如下所示：

def get_slider(self):
    slider = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'geetest_slider_button')))
    return slider
slider = self.get_slider()
slider.click()

調(diào)用 get_geetest_image() 方法將第二張圖片獲取下來即可。

現(xiàn)在我們已經(jīng)得到兩張圖片對(duì)象，分別賦值給變量 image1 和 image2。接下來對(duì)比圖片獲取缺口。我們?cè)谶@里遍歷圖片的每個(gè)坐標(biāo)點(diǎn)，獲取兩張圖片對(duì)應(yīng)像素點(diǎn)的 RGB 數(shù)據(jù)。如果二者的 RGB 數(shù)據(jù)差距在一定范圍內(nèi)，那就代表兩個(gè)像素相同，繼續(xù)比對(duì)下一個(gè)像素點(diǎn)。如果差距超過一定范圍，則代表像素點(diǎn)不同，當(dāng)前位置即為缺口位置，代碼實(shí)現(xiàn)如下：

def is_pixel_equal(self, image1, image2, x, y):
    pixel1 = image1.load()[x, y]
    pixel2 = image2.load()[x, y]
    threshold = 60
    if abs(pixel1[0] - pixel2[0]) <threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(pixel1[2] - pixel2[2]) < threshold:
        return True
    else:
        return False
def get_gap(self, image1, image2):
    left = 60
    for i in range(left, image1.size[0]):
        for j in range(image1.size[1]):
            if not self.is_pixel_equal(image1, image2, i, j):
                left = i
                return left
    return left

get_gap() 方法即獲取缺口位置的方法。此方法的參數(shù)是兩張圖片，一張為帶缺口圖片，另一張為不帶缺口圖片。這里遍歷兩張圖片的每個(gè)像素，利用 is_pixel_equal() 方法判斷兩張圖片同一位置的像素是否相同。比較兩張圖 RGB 的絕對(duì)值是否均小于定義的閾值 threshold。如果絕對(duì)值均在閾值之內(nèi)，則代表像素點(diǎn)相同，繼續(xù)遍歷。否則代表不相同的像素點(diǎn)，即缺口的位置。

兩張圖片有兩處明顯不同的地方：一個(gè)就是待拼合的滑塊，一個(gè)就是缺口。滑塊的位置會(huì)出現(xiàn)在左邊位置，缺口會(huì)出現(xiàn)在與滑塊同一水平線的位置，所以缺口一般會(huì)在滑塊的右側(cè)。如果要尋找缺口，直接從滑塊右側(cè)尋找即可。我們直接設(shè)置遍歷的起始橫坐標(biāo)為 60，也就是從滑塊的右側(cè)開始識(shí)別，這樣識(shí)別出的結(jié)果就是缺口的位置。

現(xiàn)在，我們獲取了缺口的位置。完成驗(yàn)證還剩下最后一步 —— 模擬拖動(dòng)。

模擬拖動(dòng)

到這里，會(huì)有一個(gè)小問題。如果是勻速拖動(dòng)，極驗(yàn)必然會(huì)識(shí)別出它是程序的操作，因?yàn)槿藷o法做到完全勻速拖動(dòng)。極驗(yàn)驗(yàn)證碼利用機(jī)器學(xué)習(xí)模型，篩選此類數(shù)據(jù)為機(jī)器操作，驗(yàn)證碼識(shí)別失敗。我們嘗試分段模擬，將拖動(dòng)過程劃分幾段，每段設(shè)置一個(gè)平均速度，速度圍繞該平均速度小幅度隨機(jī)抖動(dòng)，這樣也無法完成驗(yàn)證。那怎么辦呢？

我們可以完全模擬加速減速的過程通過了驗(yàn)證。即前段滑塊做勻加速運(yùn)動(dòng)，后段滑塊做勻減速運(yùn)動(dòng)，利用物理學(xué)的加速度公式即可完成驗(yàn)證。接下來我們就可以構(gòu)造軌跡移動(dòng)算法，計(jì)算出先加速后減速的運(yùn)動(dòng)軌跡，最后按照該運(yùn)動(dòng)軌跡拖動(dòng)滑塊即可，方法實(shí)現(xiàn)如下所示：

def move_to_gap(self, slider, tracks):
    ActionChains(self.browser).click_and_hold(slider).perform()
    for x in tracks:
        ActionChains(self.browser).move_by_offset(xoffset=x, yoffset=0).perform()
    time.sleep(0.5)
    ActionChains(self.browser).release().perform()

最后經(jīng)過測試，驗(yàn)證通過，識(shí)別完成。

到此這篇關(guān)于Python新版極驗(yàn)驗(yàn)證碼識(shí)別驗(yàn)證碼教程詳解的文章就介紹到這了,更多相關(guān)Python極驗(yàn)驗(yàn)證碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: