python爬蟲解決驗證碼的思路及示例
如果直接從生成驗證碼的頁面把驗證碼下載到本地后識別,再構(gòu)造表單數(shù)據(jù)發(fā)送的話,會有一個驗證碼同步的問題,即請求了兩次驗證碼,而識別出來的驗證碼并不是實際需要發(fā)送的驗證碼。有如下幾種方法解決。
法1:
用session:
mysession = requests.Session() login_url = 'http://xxx.com' checkcode_url='http://yyy.com' html = mysession.get(login_url,timeout=60*4) #....balabala解析操作.... checkcode = mysession.get(checkcode_url,timeout=60*4) with open('checkcode.png','wb') as f: f.write(checkcode.content) #接下來balabala對圖像操作,可以用python的相關(guān)庫(識別率低,教務(wù)網(wǎng)的驗證碼都夠嗆),也可以用云速等第三方驗證碼識別網(wǎng)站提供的有償服務(wù)(識別度較高) #再接下來構(gòu)造表單數(shù)據(jù)balabala
法2:
用cookie:
#綁定cookie checkcode_url='http://yyy.com' cookie = cookielib.CookieJar() handler = urllib2.HTTPCookieProcessor(cookie) opener = urllib2.build_opener(handler) #先讀取驗證碼的url picture = opener.open(checkcode_url).read() #balabala圖像處理 # 生成post數(shù)據(jù) data = urllib.urlencode(postData) # 構(gòu)造request請求 request = urllib2.Request(PostUrl, data, headers) # 利用之前存有cookie的opener登錄頁面 try: response = opener.open(request) result = response.read() except urllib2.HTTPError, e: print e.code
法3:
selenium+手動構(gòu)造cookie: 該方法無需識別驗證碼,本人尚未嘗試。
webdriver 操作 cookie 的方法有:
- get_cookies() 獲得所有 cookie 信息
- get_cookie(name) 返回特定 name 有 cookie 信息
- add_cookie(cookie_dict) 添加 cookie,必須有 name 和 value 值
- delete_cookie(name) 刪除特定(部分)的 cookie 信息
- delete_all_cookies() 刪除所有 cookie 信息
.... #第一次訪問 xxx 網(wǎng)站 driver.get("http://xxx.com") #將用戶名密碼寫入瀏覽器 cookie driver.add_cookie({'name':'username','value':'username'}) driver.add_cookie({'name':'password','value':'password'}) #再次訪問 xxx 網(wǎng)站,將會自動登錄 driver.get("http://xxx.com") time.sleep(5) .... driver.quit()
這種方法難點在于確定該網(wǎng)站是用cookie中的什么key值來表示“用戶名”和“密碼”的。而且好像有些cookie是加密過的??梢韵扔胓et_cookies()進行觀察。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- 用Python爬蟲破解滑動驗證碼的案例解析
- python網(wǎng)絡(luò)爬蟲實現(xiàn)發(fā)送短信驗證碼的方法
- Python爬蟲爬取ts碎片視頻+驗證碼登錄功能
- python爬蟲如何解決圖片驗證碼
- Python爬蟲模擬登陸嗶哩嗶哩(bilibili)并突破點選驗證碼功能
- Python3爬蟲里關(guān)于識別微博宮格驗證碼的知識點詳解
- Python3爬蟲關(guān)于識別點觸點選驗證碼的實例講解
- Python3爬蟲關(guān)于識別檢驗滑動驗證碼的實例
- Python3爬蟲中識別圖形驗證碼的實例講解
- Python3網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)之極驗滑動驗證碼的識別
- Python爬蟲實現(xiàn)驗證碼登錄代碼實例
- python爬蟲之驗證碼篇3-滑動驗證碼識別技術(shù)
- python爬蟲之自動登錄與驗證碼識別
- Python爬蟲爬驗證碼實現(xiàn)功能詳解
- Python爬蟲模擬登錄帶驗證碼網(wǎng)站
- 爬蟲Python驗證碼識別入門
相關(guān)文章
Python pandas對excel的操作實現(xiàn)示例
這篇文章主要介紹了Python pandas對excel的操作實現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-07-07Python+Pygame實戰(zhàn)之英文版猜字游戲的實現(xiàn)
這篇文章主要為大家介紹了如何利用Python中的Pygame模塊實現(xiàn)英文版猜單詞游戲,文中的示例代碼講解詳細(xì),對我們學(xué)習(xí)Python游戲開發(fā)有一定幫助,需要的可以參考一下2022-08-08python 實現(xiàn)二維數(shù)組的索引、刪除、拼接操作
這篇文章主要介紹了python 實現(xiàn)二維數(shù)組的索引、刪除、拼接操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-05-05