欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

利用python爬取軟考試題之ip自動(dòng)

 更新時(shí)間:2017年03月28日 10:09:42   作者:niithub  
最近為了考試打算抓取網(wǎng)上的軟考試題,在抓取中遇到一些問(wèn)題,下面這篇文章主要介紹的是利用python爬取軟考試題之ip自動(dòng)的相關(guān)資料,文中介紹的非常詳細(xì),需要的朋友們下面來(lái)一起看看吧。

前言

最近有個(gè)軟件專(zhuān)業(yè)等級(jí)考試,以下簡(jiǎn)稱(chēng)軟考,為了更好的復(fù)習(xí)備考,我打算抓取www.rkpass.cn網(wǎng)上的軟考試題。

首先講述一下我爬取軟考試題的故(keng)事(shi)?,F(xiàn)在我已經(jīng)能自動(dòng)抓取某一個(gè)模塊的所有題目了,如下圖:

目前可以將信息系統(tǒng)監(jiān)理師的30條試題記錄全部抓取下來(lái),結(jié)果如下圖所示:

抓取下來(lái)的內(nèi)容圖片:

雖然可以將部分信息抓取下來(lái),但是代碼的質(zhì)量并不高,以抓取信息系統(tǒng)監(jiān)理師為例,因?yàn)槟繕?biāo)明確,各項(xiàng)參數(shù)清晰,為了追求能在短時(shí)間內(nèi)抓取到試卷信息,所以并沒(méi)有做異常處理,昨天晚上填了很久的坑。

回到主題,今天寫(xiě)這篇博客,是因?yàn)橛钟龅叫驴恿恕奈闹袠?biāo)題我們可以猜出個(gè)大概,肯定是請(qǐng)求次數(shù)過(guò)多,所以ip被網(wǎng)站的反爬蟲(chóng)機(jī)制給封了。

在網(wǎng)絡(luò)爬蟲(chóng)抓取信息的過(guò)程中,如果抓取頻率高過(guò)了網(wǎng)站的設(shè)置閥值,將會(huì)被禁止訪(fǎng)問(wèn)。通常,網(wǎng)站的反爬蟲(chóng)機(jī)制都是依據(jù)IP來(lái)標(biāo)識(shí)爬蟲(chóng)的。

于是在爬蟲(chóng)的開(kāi)發(fā)者通常需要采取兩種手段來(lái)解決這個(gè)問(wèn)題:

1、放慢抓取速度,減小對(duì)于目標(biāo)網(wǎng)站造成的壓力。但是這樣會(huì)減少單位時(shí)間類(lèi)的抓取量。

2、第二種方法是通過(guò)設(shè)置IP等手段,突破反爬蟲(chóng)機(jī)制繼續(xù)高頻率抓取。但是這樣需要多個(gè)穩(wěn)定的IP。

話(huà)不多書(shū),直接上代碼:

# IP地址取自國(guó)內(nèi)髙匿IP網(wǎng)站:http://www.xicidaili.com/nn/
# 僅僅爬取首頁(yè)IP地址就足夠一般使用

from bs4 import BeautifulSoup
import requests
import random

#獲取當(dāng)前頁(yè)面上的ip
def get_ip_list(url, headers):
 web_data = requests.get(url, headers=headers)
 soup = BeautifulSoup(web_data.text)
 ips = soup.find_all('tr')
 ip_list = []
 for i in range(1, len(ips)):
 ip_info = ips[i]
 tds = ip_info.find_all('td')
 ip_list.append(tds[1].text + ':' + tds[2].text)
 return ip_list

#從抓取到的Ip中隨機(jī)獲取一個(gè)ip
def get_random_ip(ip_list):
 proxy_list = []
 for ip in ip_list:
 proxy_list.append('http://' + ip)
 proxy_ip = random.choice(proxy_list)
 proxies = {'http': proxy_ip}
 return proxies

#國(guó)內(nèi)高匿IP網(wǎng)主地址
url = 'http://www.xicidaili.com/nn/'
#請(qǐng)求頭
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
#計(jì)數(shù)器,根據(jù)計(jì)數(shù)器來(lái)循環(huán)抓取所有頁(yè)面的ip
num = 0
#創(chuàng)建一個(gè)數(shù)組,將捕捉到的ip存放到數(shù)組
ip_array = []
while num < 1537:
 num += 1
 ip_list = get_ip_list(url+str(num), headers=headers)
 ip_array.append(ip_list)
for ip in ip_array:
 print(ip)
#創(chuàng)建隨機(jī)數(shù),隨機(jī)取到一個(gè)ip
# proxies = get_random_ip(ip_list)
# print(proxies)

運(yùn)行結(jié)果截圖:

這樣,在爬蟲(chóng)請(qǐng)求的時(shí)候,把請(qǐng)求ip設(shè)置為自動(dòng)ip,就能有效的躲過(guò)反爬蟲(chóng)機(jī)制中簡(jiǎn)單的封鎖固定ip這個(gè)手段。

-------------------------------------------------------------------------------------------------------------------------------------

為了網(wǎng)站的穩(wěn)定,爬蟲(chóng)的速度大家還是控制下,畢竟站長(zhǎng)也都不容易。本文測(cè)試只抓取了17頁(yè)ip。

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家學(xué)習(xí)或者使用python能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。

相關(guān)文章

  • Pandas DataFrame轉(zhuǎn)換為字典的方法

    Pandas DataFrame轉(zhuǎn)換為字典的方法

    實(shí)際開(kāi)發(fā)中我們可能會(huì)遇到一類(lèi)問(wèn)題,如何將Pandas DataFrame轉(zhuǎn)換為字典,本文就來(lái)介紹一下,感興趣的可以了解一下
    2021-05-05
  • Python中re.compile函數(shù)的使用方法

    Python中re.compile函數(shù)的使用方法

    這篇文章主要介紹在python的re模塊中怎樣應(yīng)用正則表達(dá)式,文中有相關(guān)的代碼示例,具有一定的參考價(jià)值,需要的朋友可以參考下
    2023-06-06
  • python實(shí)現(xiàn)提取str字符串/json中多級(jí)目錄下的某個(gè)值

    python實(shí)現(xiàn)提取str字符串/json中多級(jí)目錄下的某個(gè)值

    今天小編就為大家分享一篇python實(shí)現(xiàn)提取str字符串/json中多級(jí)目錄下的某個(gè)值,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-02-02
  • Python中True(真)和False(假)判斷詳解

    Python中True(真)和False(假)判斷詳解

    眾所周知True和False是一個(gè)布爾變量可取的值,下面這篇文章主要給大家介紹了關(guān)于Python中True(真)和False(假)判斷的相關(guān)資料,本文通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-07-07
  • Python wxpython模塊響應(yīng)鼠標(biāo)拖動(dòng)事件操作示例

    Python wxpython模塊響應(yīng)鼠標(biāo)拖動(dòng)事件操作示例

    這篇文章主要介紹了Python wxpython模塊響應(yīng)鼠標(biāo)拖動(dòng)事件操作,結(jié)合實(shí)例形式分析了Python使用wxpython模塊創(chuàng)建窗口、綁定事件及相應(yīng)鼠標(biāo)事件相關(guān)操作技巧,需要的朋友可以參考下
    2018-08-08
  • 基于PyTorch中view的用法說(shuō)明

    基于PyTorch中view的用法說(shuō)明

    這篇文章主要介紹了基于PyTorch中view的用法說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2021-03-03
  • opencv對(duì)多種顏色小球的形狀及位置判斷方式

    opencv對(duì)多種顏色小球的形狀及位置判斷方式

    在這段時(shí)間參加了一個(gè)競(jìng)賽,寫(xiě)下了這個(gè)代碼,但是總感覺(jué)有一些地方是不完善!這是一個(gè)關(guān)于使用opencv庫(kù)判斷顏色小球形狀及位置的功能實(shí)現(xiàn),其中也參考了一些前輩的代碼,希望能對(duì)迷茫中的小伙幫有所幫助
    2022-11-11
  • Python入門(mén)_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類(lèi)型

    Python入門(mén)_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類(lèi)型

    下面小編就為大家?guī)?lái)一篇Python入門(mén)_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類(lèi)型。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2017-05-05
  • Python Pandas數(shù)據(jù)中對(duì)時(shí)間的操作

    Python Pandas數(shù)據(jù)中對(duì)時(shí)間的操作

    這篇文章主要介紹了Python Pandas數(shù)據(jù)中對(duì)時(shí)間的操作,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • 使用python解析xml成對(duì)應(yīng)的html示例分享

    使用python解析xml成對(duì)應(yīng)的html示例分享

    這篇文章主要介紹了使用python解析xml成對(duì)應(yīng)的html示例,需要的朋友可以參考下
    2014-04-04

最新評(píng)論