利用python爬取軟考試題之ip自動(dòng)
前言
最近有個(gè)軟件專(zhuān)業(yè)等級(jí)考試,以下簡(jiǎn)稱(chēng)軟考,為了更好的復(fù)習(xí)備考,我打算抓取www.rkpass.cn網(wǎng)上的軟考試題。
首先講述一下我爬取軟考試題的故(keng)事(shi)?,F(xiàn)在我已經(jīng)能自動(dòng)抓取某一個(gè)模塊的所有題目了,如下圖:
目前可以將信息系統(tǒng)監(jiān)理師的30條試題記錄全部抓取下來(lái),結(jié)果如下圖所示:
抓取下來(lái)的內(nèi)容圖片:
雖然可以將部分信息抓取下來(lái),但是代碼的質(zhì)量并不高,以抓取信息系統(tǒng)監(jiān)理師為例,因?yàn)槟繕?biāo)明確,各項(xiàng)參數(shù)清晰,為了追求能在短時(shí)間內(nèi)抓取到試卷信息,所以并沒(méi)有做異常處理,昨天晚上填了很久的坑。
回到主題,今天寫(xiě)這篇博客,是因?yàn)橛钟龅叫驴恿恕奈闹袠?biāo)題我們可以猜出個(gè)大概,肯定是請(qǐng)求次數(shù)過(guò)多,所以ip被網(wǎng)站的反爬蟲(chóng)機(jī)制給封了。
在網(wǎng)絡(luò)爬蟲(chóng)抓取信息的過(guò)程中,如果抓取頻率高過(guò)了網(wǎng)站的設(shè)置閥值,將會(huì)被禁止訪(fǎng)問(wèn)。通常,網(wǎng)站的反爬蟲(chóng)機(jī)制都是依據(jù)IP來(lái)標(biāo)識(shí)爬蟲(chóng)的。
于是在爬蟲(chóng)的開(kāi)發(fā)者通常需要采取兩種手段來(lái)解決這個(gè)問(wèn)題:
1、放慢抓取速度,減小對(duì)于目標(biāo)網(wǎng)站造成的壓力。但是這樣會(huì)減少單位時(shí)間類(lèi)的抓取量。
2、第二種方法是通過(guò)設(shè)置IP等手段,突破反爬蟲(chóng)機(jī)制繼續(xù)高頻率抓取。但是這樣需要多個(gè)穩(wěn)定的IP。
話(huà)不多書(shū),直接上代碼:
# IP地址取自國(guó)內(nèi)髙匿IP網(wǎng)站:http://www.xicidaili.com/nn/ # 僅僅爬取首頁(yè)IP地址就足夠一般使用 from bs4 import BeautifulSoup import requests import random #獲取當(dāng)前頁(yè)面上的ip def get_ip_list(url, headers): web_data = requests.get(url, headers=headers) soup = BeautifulSoup(web_data.text) ips = soup.find_all('tr') ip_list = [] for i in range(1, len(ips)): ip_info = ips[i] tds = ip_info.find_all('td') ip_list.append(tds[1].text + ':' + tds[2].text) return ip_list #從抓取到的Ip中隨機(jī)獲取一個(gè)ip def get_random_ip(ip_list): proxy_list = [] for ip in ip_list: proxy_list.append('http://' + ip) proxy_ip = random.choice(proxy_list) proxies = {'http': proxy_ip} return proxies #國(guó)內(nèi)高匿IP網(wǎng)主地址 url = 'http://www.xicidaili.com/nn/' #請(qǐng)求頭 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'} #計(jì)數(shù)器,根據(jù)計(jì)數(shù)器來(lái)循環(huán)抓取所有頁(yè)面的ip num = 0 #創(chuàng)建一個(gè)數(shù)組,將捕捉到的ip存放到數(shù)組 ip_array = [] while num < 1537: num += 1 ip_list = get_ip_list(url+str(num), headers=headers) ip_array.append(ip_list) for ip in ip_array: print(ip) #創(chuàng)建隨機(jī)數(shù),隨機(jī)取到一個(gè)ip # proxies = get_random_ip(ip_list) # print(proxies)
運(yùn)行結(jié)果截圖:
這樣,在爬蟲(chóng)請(qǐng)求的時(shí)候,把請(qǐng)求ip設(shè)置為自動(dòng)ip,就能有效的躲過(guò)反爬蟲(chóng)機(jī)制中簡(jiǎn)單的封鎖固定ip這個(gè)手段。
-------------------------------------------------------------------------------------------------------------------------------------
為了網(wǎng)站的穩(wěn)定,爬蟲(chóng)的速度大家還是控制下,畢竟站長(zhǎng)也都不容易。本文測(cè)試只抓取了17頁(yè)ip。
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家學(xué)習(xí)或者使用python能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
相關(guān)文章
Pandas DataFrame轉(zhuǎn)換為字典的方法
實(shí)際開(kāi)發(fā)中我們可能會(huì)遇到一類(lèi)問(wèn)題,如何將Pandas DataFrame轉(zhuǎn)換為字典,本文就來(lái)介紹一下,感興趣的可以了解一下2021-05-05python實(shí)現(xiàn)提取str字符串/json中多級(jí)目錄下的某個(gè)值
今天小編就為大家分享一篇python實(shí)現(xiàn)提取str字符串/json中多級(jí)目錄下的某個(gè)值,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02Python wxpython模塊響應(yīng)鼠標(biāo)拖動(dòng)事件操作示例
這篇文章主要介紹了Python wxpython模塊響應(yīng)鼠標(biāo)拖動(dòng)事件操作,結(jié)合實(shí)例形式分析了Python使用wxpython模塊創(chuàng)建窗口、綁定事件及相應(yīng)鼠標(biāo)事件相關(guān)操作技巧,需要的朋友可以參考下2018-08-08Python入門(mén)_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類(lèi)型
下面小編就為大家?guī)?lái)一篇Python入門(mén)_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類(lèi)型。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-05-05Python Pandas數(shù)據(jù)中對(duì)時(shí)間的操作
這篇文章主要介紹了Python Pandas數(shù)據(jù)中對(duì)時(shí)間的操作,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07使用python解析xml成對(duì)應(yīng)的html示例分享
這篇文章主要介紹了使用python解析xml成對(duì)應(yīng)的html示例,需要的朋友可以參考下2014-04-04