欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲常用小技巧之設(shè)置代理IP

 更新時間:2018年09月13日 10:33:03   作者:qq52o  
這篇文章主要給大家介紹了關(guān)于Python爬蟲常用小技巧之設(shè)置代理IP的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家學習或者使用python具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧

設(shè)置代理IP的原因

我們在使用Python爬蟲爬取一個網(wǎng)站時,通常會頻繁訪問該網(wǎng)站。假如一個網(wǎng)站它會檢測某一段時間某個IP的訪問次數(shù),如果訪問次數(shù)過多,它會禁止你的訪問。所以你可以設(shè)置一些代理服務(wù)器來幫助你做工作,每隔一段時間換一個代理,這樣便不會出現(xiàn)因為頻繁訪問而導致禁止訪問的現(xiàn)象。

我們在學習Python爬蟲的時候,也經(jīng)常會遇見所要爬取的網(wǎng)站采取了反爬取技術(shù)導致爬取失敗。高強度、高效率地爬取網(wǎng)頁信息常常會給網(wǎng)站服務(wù)器帶來巨大壓力,所以同一個IP反復爬取同一個網(wǎng)頁,就很可能被封,所以下面這篇文章講述一個爬蟲技巧,設(shè)置代理IP

這里介紹一下免費獲取代理IP的方法,這個方法的優(yōu)點就是免費,但是缺點就是爬取后存在很多不能用的

IP地址取自國內(nèi)髙匿代理IP網(wǎng)站,西刺代理,我們爬取首頁IP地址就足夠一般使用,或者你也可以爬取第一頁,第二頁…的

配置環(huán)境

  • 安裝requests庫
  • 安裝bs4庫
  • 安裝lxml庫

具體代碼

話不多說直接上代碼吧

from bs4 import BeautifulSoup
import requests
import random

def get_ip_list(url, headers):
 web_data = requests.get(url, headers=headers)
 soup = BeautifulSoup(web_data.text, 'lxml')
 ips = soup.find_all('tr')
 ip_list = []
 for i in range(1, len(ips)):
  ip_info = ips[i]
  tds = ip_info.find_all('td')
  ip_list.append(tds[1].text + ':' + tds[2].text)
 return ip_list

def get_random_ip(ip_list):
 proxy_list = []
 for ip in ip_list:
  proxy_list.append('http://' + ip)
 proxy_ip = random.choice(proxy_list)
 proxies = {'http': proxy_ip}
 return proxies

if __name__ == '__main__':
 url = 'http://www.xicidaili.com/nn/'
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.60 Safari/537.17'
 }
 ip_list = get_ip_list(url, headers=headers)
 proxies = get_random_ip(ip_list)
 print(proxies)

函數(shù)get_ip_list(url, headers)傳入url和headers,最后返回一個IP列表,列表的元素類似122.114.31.177:808格式,這個列表包括國內(nèi)髙匿代理IP網(wǎng)站首頁所有IP地址和端口

函數(shù)get_random_ip(ip_list)傳入第一個函數(shù)得到的列表,返回一個隨機的proxies,這個proxies可以傳入到requests的get方法中,這樣就可以做到每次運行都使用不同的IP訪問被爬取的網(wǎng)站,有效地避免了真實IP被封的風險

proxies的格式是一個字典: {‘http': ‘http://122.114.31.177:808‘} ,可以將下面的執(zhí)行也封裝為方法

對于抓取IP這個,西刺代理的服務(wù)器做了反爬處理,如果你頻繁去抓取的話,服務(wù)器會主動返回503錯誤,提示block,所以在請求的時候可以先一次請求完保存一個文件,來讀取這個文件,或者爬取一個ip使用幾分鐘后,再去爬取一次,相當于加一個定時功能

代理IP的使用

運行上面的代碼會得到一個隨機的proxies,把它直接傳入requests的get方法中即可

res = requests.get(url, headers=headers, proxies=proxies)

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。

相關(guān)文章

  • python各種excel寫入方式的速度對比

    python各種excel寫入方式的速度對比

    這篇文章主要介紹了python各種excel寫入方式的速度對比,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-11-11
  • Python圖像分割之均勻性度量法分析

    Python圖像分割之均勻性度量法分析

    均勻性度量圖像分割是圖像像素分割的一種方法,當然還有其他很多的方法。本文將主要介紹下其原理和實現(xiàn)代碼,感興趣的小伙伴可以學習一下
    2021-12-12
  • Python實現(xiàn)打印螺旋矩陣功能的方法

    Python實現(xiàn)打印螺旋矩陣功能的方法

    這篇文章主要介紹了Python實現(xiàn)打印螺旋矩陣功能的方法,簡單描述了螺旋矩陣的概念、原理及Python實現(xiàn)方法,需要的朋友可以參考下
    2017-11-11
  • Python實現(xiàn)隨機游走的詳細解釋

    Python實現(xiàn)隨機游走的詳細解釋

    這篇文章主要介紹了Python實現(xiàn)隨機游走的詳細解釋,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-03-03
  • python排序算法之希爾排序

    python排序算法之希爾排序

    這篇文章主要介紹了python排序算法之希爾排序,希爾排序,又叫“縮小增量排序”,是對插入排序進行優(yōu)化后產(chǎn)生的一種排序算法,需要的朋友可以參考下
    2023-04-04
  • Python Excel處理庫openpyxl使用詳解

    Python Excel處理庫openpyxl使用詳解

    openpyxl是一個第三方庫,可以處理xlsx格式的Excel文件。這篇文章主要介紹了Python Excel處理庫openpyxl使用詳解,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2019-05-05
  • 使用python遍歷指定城市的一周氣溫

    使用python遍歷指定城市的一周氣溫

    本文主要介紹了使用python遍歷指定城市的一周氣溫的實現(xiàn)方法。具有很好的參考價值,下面跟著小編一起來看下吧
    2017-03-03
  • python實現(xiàn)從一組顏色中找出與給定顏色最接近顏色的方法

    python實現(xiàn)從一組顏色中找出與給定顏色最接近顏色的方法

    這篇文章主要介紹了python實現(xiàn)從一組顏色中找出與給定顏色最接近顏色的方法,涉及Python操作rgb格式顏色的技巧,非常具有實用價值,需要的朋友可以參考下
    2015-03-03
  • 對python中url參數(shù)編碼與解碼的實例詳解

    對python中url參數(shù)編碼與解碼的實例詳解

    今天小編就為大家分享一篇對python中url參數(shù)編碼與解碼的實例詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07
  • jupyter notebook中美觀顯示矩陣實例

    jupyter notebook中美觀顯示矩陣實例

    這篇文章主要介紹了jupyter notebook中美觀顯示矩陣實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04

最新評論