利用python爬取軟考試題之ip自動(dòng)

更新時(shí)間：2017年03月28日 10:09:42 作者：niithub

最近為了考試打算抓取網(wǎng)上的軟考試題，在抓取中遇到一些問題，下面這篇文章主要介紹的是利用python爬取軟考試題之ip自動(dòng)的相關(guān)資料，文中介紹的非常詳細(xì)，需要的朋友們下面來一起看看吧。

前言

最近有個(gè)軟件專業(yè)等級考試，以下簡稱軟考，為了更好的復(fù)習(xí)備考，我打算抓取www.rkpass.cn網(wǎng)上的軟考試題。

首先講述一下我爬取軟考試題的故（keng）事(shi)?，F(xiàn)在我已經(jīng)能自動(dòng)抓取某一個(gè)模塊的所有題目了，如下圖：

目前可以將信息系統(tǒng)監(jiān)理師的30條試題記錄全部抓取下來，結(jié)果如下圖所示：

抓取下來的內(nèi)容圖片：

雖然可以將部分信息抓取下來，但是代碼的質(zhì)量并不高，以抓取信息系統(tǒng)監(jiān)理師為例，因?yàn)槟繕?biāo)明確，各項(xiàng)參數(shù)清晰，為了追求能在短時(shí)間內(nèi)抓取到試卷信息，所以并沒有做異常處理，昨天晚上填了很久的坑。

回到主題，今天寫這篇博客，是因?yàn)橛钟龅叫驴恿?。從文中?biāo)題我們可以猜出個(gè)大概，肯定是請求次數(shù)過多，所以ip被網(wǎng)站的反爬蟲機(jī)制給封了。

在網(wǎng)絡(luò)爬蟲抓取信息的過程中，如果抓取頻率高過了網(wǎng)站的設(shè)置閥值，將會被禁止訪問。通常，網(wǎng)站的反爬蟲機(jī)制都是依據(jù)IP來標(biāo)識爬蟲的。

于是在爬蟲的開發(fā)者通常需要采取兩種手段來解決這個(gè)問題：

1、放慢抓取速度，減小對于目標(biāo)網(wǎng)站造成的壓力。但是這樣會減少單位時(shí)間類的抓取量。

2、第二種方法是通過設(shè)置IP等手段，突破反爬蟲機(jī)制繼續(xù)高頻率抓取。但是這樣需要多個(gè)穩(wěn)定的IP。

話不多書，直接上代碼：

# IP地址取自國內(nèi)髙匿IP網(wǎng)站：http://www.xicidaili.com/nn/
# 僅僅爬取首頁IP地址就足夠一般使用

from bs4 import BeautifulSoup
import requests
import random

#獲取當(dāng)前頁面上的ip
def get_ip_list(url, headers):
 web_data = requests.get(url, headers=headers)
 soup = BeautifulSoup(web_data.text)
 ips = soup.find_all('tr')
 ip_list = []
 for i in range(1, len(ips)):
 ip_info = ips[i]
 tds = ip_info.find_all('td')
 ip_list.append(tds[1].text + ':' + tds[2].text)
 return ip_list

#從抓取到的Ip中隨機(jī)獲取一個(gè)ip
def get_random_ip(ip_list):
 proxy_list = []
 for ip in ip_list:
 proxy_list.append('http://' + ip)
 proxy_ip = random.choice(proxy_list)
 proxies = {'http': proxy_ip}
 return proxies

#國內(nèi)高匿IP網(wǎng)主地址
url = 'http://www.xicidaili.com/nn/'
#請求頭
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
#計(jì)數(shù)器，根據(jù)計(jì)數(shù)器來循環(huán)抓取所有頁面的ip
num = 0
#創(chuàng)建一個(gè)數(shù)組，將捕捉到的ip存放到數(shù)組
ip_array = []
while num < 1537:
 num += 1
 ip_list = get_ip_list(url+str(num), headers=headers)
 ip_array.append(ip_list)
for ip in ip_array:
 print(ip)
#創(chuàng)建隨機(jī)數(shù)，隨機(jī)取到一個(gè)ip
# proxies = get_random_ip(ip_list)
# print(proxies)

運(yùn)行結(jié)果截圖：