利用python爬取軟考試題之ip自動(dòng)
前言
最近有個(gè)軟件專業(yè)等級考試,以下簡稱軟考,為了更好的復(fù)習(xí)備考,我打算抓取www.rkpass.cn網(wǎng)上的軟考試題。
首先講述一下我爬取軟考試題的故(keng)事(shi)?,F(xiàn)在我已經(jīng)能自動(dòng)抓取某一個(gè)模塊的所有題目了,如下圖:

目前可以將信息系統(tǒng)監(jiān)理師的30條試題記錄全部抓取下來,結(jié)果如下圖所示:

抓取下來的內(nèi)容圖片:

雖然可以將部分信息抓取下來,但是代碼的質(zhì)量并不高,以抓取信息系統(tǒng)監(jiān)理師為例,因?yàn)槟繕?biāo)明確,各項(xiàng)參數(shù)清晰,為了追求能在短時(shí)間內(nèi)抓取到試卷信息,所以并沒有做異常處理,昨天晚上填了很久的坑。
回到主題,今天寫這篇博客,是因?yàn)橛钟龅叫驴恿?。從文中?biāo)題我們可以猜出個(gè)大概,肯定是請求次數(shù)過多,所以ip被網(wǎng)站的反爬蟲機(jī)制給封了。

在網(wǎng)絡(luò)爬蟲抓取信息的過程中,如果抓取頻率高過了網(wǎng)站的設(shè)置閥值,將會被禁止訪問。通常,網(wǎng)站的反爬蟲機(jī)制都是依據(jù)IP來標(biāo)識爬蟲的。
于是在爬蟲的開發(fā)者通常需要采取兩種手段來解決這個(gè)問題:
1、放慢抓取速度,減小對于目標(biāo)網(wǎng)站造成的壓力。但是這樣會減少單位時(shí)間類的抓取量。
2、第二種方法是通過設(shè)置IP等手段,突破反爬蟲機(jī)制繼續(xù)高頻率抓取。但是這樣需要多個(gè)穩(wěn)定的IP。
話不多書,直接上代碼:
# IP地址取自國內(nèi)髙匿IP網(wǎng)站:http://www.xicidaili.com/nn/
# 僅僅爬取首頁IP地址就足夠一般使用
from bs4 import BeautifulSoup
import requests
import random
#獲取當(dāng)前頁面上的ip
def get_ip_list(url, headers):
web_data = requests.get(url, headers=headers)
soup = BeautifulSoup(web_data.text)
ips = soup.find_all('tr')
ip_list = []
for i in range(1, len(ips)):
ip_info = ips[i]
tds = ip_info.find_all('td')
ip_list.append(tds[1].text + ':' + tds[2].text)
return ip_list
#從抓取到的Ip中隨機(jī)獲取一個(gè)ip
def get_random_ip(ip_list):
proxy_list = []
for ip in ip_list:
proxy_list.append('http://' + ip)
proxy_ip = random.choice(proxy_list)
proxies = {'http': proxy_ip}
return proxies
#國內(nèi)高匿IP網(wǎng)主地址
url = 'http://www.xicidaili.com/nn/'
#請求頭
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
#計(jì)數(shù)器,根據(jù)計(jì)數(shù)器來循環(huán)抓取所有頁面的ip
num = 0
#創(chuàng)建一個(gè)數(shù)組,將捕捉到的ip存放到數(shù)組
ip_array = []
while num < 1537:
num += 1
ip_list = get_ip_list(url+str(num), headers=headers)
ip_array.append(ip_list)
for ip in ip_array:
print(ip)
#創(chuàng)建隨機(jī)數(shù),隨機(jī)取到一個(gè)ip
# proxies = get_random_ip(ip_list)
# print(proxies)運(yùn)行結(jié)果截圖:

這樣,在爬蟲請求的時(shí)候,把請求ip設(shè)置為自動(dòng)ip,就能有效的躲過反爬蟲機(jī)制中簡單的封鎖固定ip這個(gè)手段。
-------------------------------------------------------------------------------------------------------------------------------------
為了網(wǎng)站的穩(wěn)定,爬蟲的速度大家還是控制下,畢竟站長也都不容易。本文測試只抓取了17頁ip。
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家學(xué)習(xí)或者使用python能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
Pandas DataFrame轉(zhuǎn)換為字典的方法
實(shí)際開發(fā)中我們可能會遇到一類問題,如何將Pandas DataFrame轉(zhuǎn)換為字典,本文就來介紹一下,感興趣的可以了解一下2021-05-05
python實(shí)現(xiàn)提取str字符串/json中多級目錄下的某個(gè)值
今天小編就為大家分享一篇python實(shí)現(xiàn)提取str字符串/json中多級目錄下的某個(gè)值,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02
Python wxpython模塊響應(yīng)鼠標(biāo)拖動(dòng)事件操作示例
這篇文章主要介紹了Python wxpython模塊響應(yīng)鼠標(biāo)拖動(dòng)事件操作,結(jié)合實(shí)例形式分析了Python使用wxpython模塊創(chuàng)建窗口、綁定事件及相應(yīng)鼠標(biāo)事件相關(guān)操作技巧,需要的朋友可以參考下2018-08-08
Python入門_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類型
下面小編就為大家?guī)硪黄狿ython入門_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類型。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-05-05
Python Pandas數(shù)據(jù)中對時(shí)間的操作
這篇文章主要介紹了Python Pandas數(shù)據(jù)中對時(shí)間的操作,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07
使用python解析xml成對應(yīng)的html示例分享
這篇文章主要介紹了使用python解析xml成對應(yīng)的html示例,需要的朋友可以參考下2014-04-04

