利用python爬取軟考試題之ip自動
前言
最近有個軟件專業(yè)等級考試,以下簡稱軟考,為了更好的復(fù)習(xí)備考,我打算抓取www.rkpass.cn網(wǎng)上的軟考試題。
首先講述一下我爬取軟考試題的故(keng)事(shi)?,F(xiàn)在我已經(jīng)能自動抓取某一個模塊的所有題目了,如下圖:
目前可以將信息系統(tǒng)監(jiān)理師的30條試題記錄全部抓取下來,結(jié)果如下圖所示:
抓取下來的內(nèi)容圖片:
雖然可以將部分信息抓取下來,但是代碼的質(zhì)量并不高,以抓取信息系統(tǒng)監(jiān)理師為例,因為目標(biāo)明確,各項參數(shù)清晰,為了追求能在短時間內(nèi)抓取到試卷信息,所以并沒有做異常處理,昨天晚上填了很久的坑。
回到主題,今天寫這篇博客,是因為又遇到新坑了。從文中標(biāo)題我們可以猜出個大概,肯定是請求次數(shù)過多,所以ip被網(wǎng)站的反爬蟲機制給封了。
在網(wǎng)絡(luò)爬蟲抓取信息的過程中,如果抓取頻率高過了網(wǎng)站的設(shè)置閥值,將會被禁止訪問。通常,網(wǎng)站的反爬蟲機制都是依據(jù)IP來標(biāo)識爬蟲的。
于是在爬蟲的開發(fā)者通常需要采取兩種手段來解決這個問題:
1、放慢抓取速度,減小對于目標(biāo)網(wǎng)站造成的壓力。但是這樣會減少單位時間類的抓取量。
2、第二種方法是通過設(shè)置IP等手段,突破反爬蟲機制繼續(xù)高頻率抓取。但是這樣需要多個穩(wěn)定的IP。
話不多書,直接上代碼:
# IP地址取自國內(nèi)髙匿IP網(wǎng)站:http://www.xicidaili.com/nn/ # 僅僅爬取首頁IP地址就足夠一般使用 from bs4 import BeautifulSoup import requests import random #獲取當(dāng)前頁面上的ip def get_ip_list(url, headers): web_data = requests.get(url, headers=headers) soup = BeautifulSoup(web_data.text) ips = soup.find_all('tr') ip_list = [] for i in range(1, len(ips)): ip_info = ips[i] tds = ip_info.find_all('td') ip_list.append(tds[1].text + ':' + tds[2].text) return ip_list #從抓取到的Ip中隨機獲取一個ip def get_random_ip(ip_list): proxy_list = [] for ip in ip_list: proxy_list.append('http://' + ip) proxy_ip = random.choice(proxy_list) proxies = {'http': proxy_ip} return proxies #國內(nèi)高匿IP網(wǎng)主地址 url = 'http://www.xicidaili.com/nn/' #請求頭 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'} #計數(shù)器,根據(jù)計數(shù)器來循環(huán)抓取所有頁面的ip num = 0 #創(chuàng)建一個數(shù)組,將捕捉到的ip存放到數(shù)組 ip_array = [] while num < 1537: num += 1 ip_list = get_ip_list(url+str(num), headers=headers) ip_array.append(ip_list) for ip in ip_array: print(ip) #創(chuàng)建隨機數(shù),隨機取到一個ip # proxies = get_random_ip(ip_list) # print(proxies)
運行結(jié)果截圖:
這樣,在爬蟲請求的時候,把請求ip設(shè)置為自動ip,就能有效的躲過反爬蟲機制中簡單的封鎖固定ip這個手段。
-------------------------------------------------------------------------------------------------------------------------------------
為了網(wǎng)站的穩(wěn)定,爬蟲的速度大家還是控制下,畢竟站長也都不容易。本文測試只抓取了17頁ip。
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家學(xué)習(xí)或者使用python能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
Pandas DataFrame轉(zhuǎn)換為字典的方法
實際開發(fā)中我們可能會遇到一類問題,如何將Pandas DataFrame轉(zhuǎn)換為字典,本文就來介紹一下,感興趣的可以了解一下2021-05-05python實現(xiàn)提取str字符串/json中多級目錄下的某個值
今天小編就為大家分享一篇python實現(xiàn)提取str字符串/json中多級目錄下的某個值,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02Python wxpython模塊響應(yīng)鼠標(biāo)拖動事件操作示例
這篇文章主要介紹了Python wxpython模塊響應(yīng)鼠標(biāo)拖動事件操作,結(jié)合實例形式分析了Python使用wxpython模塊創(chuàng)建窗口、綁定事件及相應(yīng)鼠標(biāo)事件相關(guān)操作技巧,需要的朋友可以參考下2018-08-08Python入門_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類型
下面小編就為大家?guī)硪黄狿ython入門_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類型。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-05-05Python Pandas數(shù)據(jù)中對時間的操作
這篇文章主要介紹了Python Pandas數(shù)據(jù)中對時間的操作,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07使用python解析xml成對應(yīng)的html示例分享
這篇文章主要介紹了使用python解析xml成對應(yīng)的html示例,需要的朋友可以參考下2014-04-04