欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

利用python爬取軟考試題之ip自動

 更新時間:2017年03月28日 10:09:42   作者:niithub  
最近為了考試打算抓取網(wǎng)上的軟考試題,在抓取中遇到一些問題,下面這篇文章主要介紹的是利用python爬取軟考試題之ip自動的相關(guān)資料,文中介紹的非常詳細(xì),需要的朋友們下面來一起看看吧。

前言

最近有個軟件專業(yè)等級考試,以下簡稱軟考,為了更好的復(fù)習(xí)備考,我打算抓取www.rkpass.cn網(wǎng)上的軟考試題。

首先講述一下我爬取軟考試題的故(keng)事(shi)?,F(xiàn)在我已經(jīng)能自動抓取某一個模塊的所有題目了,如下圖:

目前可以將信息系統(tǒng)監(jiān)理師的30條試題記錄全部抓取下來,結(jié)果如下圖所示:

抓取下來的內(nèi)容圖片:

雖然可以將部分信息抓取下來,但是代碼的質(zhì)量并不高,以抓取信息系統(tǒng)監(jiān)理師為例,因為目標(biāo)明確,各項參數(shù)清晰,為了追求能在短時間內(nèi)抓取到試卷信息,所以并沒有做異常處理,昨天晚上填了很久的坑。

回到主題,今天寫這篇博客,是因為又遇到新坑了。從文中標(biāo)題我們可以猜出個大概,肯定是請求次數(shù)過多,所以ip被網(wǎng)站的反爬蟲機制給封了。

在網(wǎng)絡(luò)爬蟲抓取信息的過程中,如果抓取頻率高過了網(wǎng)站的設(shè)置閥值,將會被禁止訪問。通常,網(wǎng)站的反爬蟲機制都是依據(jù)IP來標(biāo)識爬蟲的。

于是在爬蟲的開發(fā)者通常需要采取兩種手段來解決這個問題:

1、放慢抓取速度,減小對于目標(biāo)網(wǎng)站造成的壓力。但是這樣會減少單位時間類的抓取量。

2、第二種方法是通過設(shè)置IP等手段,突破反爬蟲機制繼續(xù)高頻率抓取。但是這樣需要多個穩(wěn)定的IP。

話不多書,直接上代碼:

# IP地址取自國內(nèi)髙匿IP網(wǎng)站:http://www.xicidaili.com/nn/
# 僅僅爬取首頁IP地址就足夠一般使用

from bs4 import BeautifulSoup
import requests
import random

#獲取當(dāng)前頁面上的ip
def get_ip_list(url, headers):
 web_data = requests.get(url, headers=headers)
 soup = BeautifulSoup(web_data.text)
 ips = soup.find_all('tr')
 ip_list = []
 for i in range(1, len(ips)):
 ip_info = ips[i]
 tds = ip_info.find_all('td')
 ip_list.append(tds[1].text + ':' + tds[2].text)
 return ip_list

#從抓取到的Ip中隨機獲取一個ip
def get_random_ip(ip_list):
 proxy_list = []
 for ip in ip_list:
 proxy_list.append('http://' + ip)
 proxy_ip = random.choice(proxy_list)
 proxies = {'http': proxy_ip}
 return proxies

#國內(nèi)高匿IP網(wǎng)主地址
url = 'http://www.xicidaili.com/nn/'
#請求頭
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
#計數(shù)器,根據(jù)計數(shù)器來循環(huán)抓取所有頁面的ip
num = 0
#創(chuàng)建一個數(shù)組,將捕捉到的ip存放到數(shù)組
ip_array = []
while num < 1537:
 num += 1
 ip_list = get_ip_list(url+str(num), headers=headers)
 ip_array.append(ip_list)
for ip in ip_array:
 print(ip)
#創(chuàng)建隨機數(shù),隨機取到一個ip
# proxies = get_random_ip(ip_list)
# print(proxies)

運行結(jié)果截圖:

這樣,在爬蟲請求的時候,把請求ip設(shè)置為自動ip,就能有效的躲過反爬蟲機制中簡單的封鎖固定ip這個手段。

-------------------------------------------------------------------------------------------------------------------------------------

為了網(wǎng)站的穩(wěn)定,爬蟲的速度大家還是控制下,畢竟站長也都不容易。本文測試只抓取了17頁ip。

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家學(xué)習(xí)或者使用python能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。

相關(guān)文章

  • Pandas DataFrame轉(zhuǎn)換為字典的方法

    Pandas DataFrame轉(zhuǎn)換為字典的方法

    實際開發(fā)中我們可能會遇到一類問題,如何將Pandas DataFrame轉(zhuǎn)換為字典,本文就來介紹一下,感興趣的可以了解一下
    2021-05-05
  • Python中re.compile函數(shù)的使用方法

    Python中re.compile函數(shù)的使用方法

    這篇文章主要介紹在python的re模塊中怎樣應(yīng)用正則表達(dá)式,文中有相關(guān)的代碼示例,具有一定的參考價值,需要的朋友可以參考下
    2023-06-06
  • python實現(xiàn)提取str字符串/json中多級目錄下的某個值

    python實現(xiàn)提取str字符串/json中多級目錄下的某個值

    今天小編就為大家分享一篇python實現(xiàn)提取str字符串/json中多級目錄下的某個值,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • Python中True(真)和False(假)判斷詳解

    Python中True(真)和False(假)判斷詳解

    眾所周知True和False是一個布爾變量可取的值,下面這篇文章主要給大家介紹了關(guān)于Python中True(真)和False(假)判斷的相關(guān)資料,本文通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-07-07
  • Python wxpython模塊響應(yīng)鼠標(biāo)拖動事件操作示例

    Python wxpython模塊響應(yīng)鼠標(biāo)拖動事件操作示例

    這篇文章主要介紹了Python wxpython模塊響應(yīng)鼠標(biāo)拖動事件操作,結(jié)合實例形式分析了Python使用wxpython模塊創(chuàng)建窗口、綁定事件及相應(yīng)鼠標(biāo)事件相關(guān)操作技巧,需要的朋友可以參考下
    2018-08-08
  • 基于PyTorch中view的用法說明

    基于PyTorch中view的用法說明

    這篇文章主要介紹了基于PyTorch中view的用法說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • opencv對多種顏色小球的形狀及位置判斷方式

    opencv對多種顏色小球的形狀及位置判斷方式

    在這段時間參加了一個競賽,寫下了這個代碼,但是總感覺有一些地方是不完善!這是一個關(guān)于使用opencv庫判斷顏色小球形狀及位置的功能實現(xiàn),其中也參考了一些前輩的代碼,希望能對迷茫中的小伙幫有所幫助
    2022-11-11
  • Python入門_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類型

    Python入門_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類型

    下面小編就為大家?guī)硪黄狿ython入門_淺談數(shù)據(jù)結(jié)構(gòu)的4種基本類型。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-05-05
  • Python Pandas數(shù)據(jù)中對時間的操作

    Python Pandas數(shù)據(jù)中對時間的操作

    這篇文章主要介紹了Python Pandas數(shù)據(jù)中對時間的操作,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • 使用python解析xml成對應(yīng)的html示例分享

    使用python解析xml成對應(yīng)的html示例分享

    這篇文章主要介紹了使用python解析xml成對應(yīng)的html示例,需要的朋友可以參考下
    2014-04-04

最新評論