快捷導(dǎo)航

Python爬蟲常用小技巧之設(shè)置代理IP

更新時(shí)間：2018年09月13日 10:33:03 作者：qq52o

這篇文章主要給大家介紹了關(guān)于Python爬蟲常用小技巧之設(shè)置代理IP的相關(guān)資料，文中通過示例代碼介紹的非常詳細(xì)，對大家學(xué)習(xí)或者使用python具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

設(shè)置代理IP的原因

我們在使用Python爬蟲爬取一個(gè)網(wǎng)站時(shí)，通常會頻繁訪問該網(wǎng)站。假如一個(gè)網(wǎng)站它會檢測某一段時(shí)間某個(gè)IP的訪問次數(shù)，如果訪問次數(shù)過多，它會禁止你的訪問。所以你可以設(shè)置一些代理服務(wù)器來幫助你做工作，每隔一段時(shí)間換一個(gè)代理，這樣便不會出現(xiàn)因?yàn)轭l繁訪問而導(dǎo)致禁止訪問的現(xiàn)象。

我們在學(xué)習(xí)Python爬蟲的時(shí)候，也經(jīng)常會遇見所要爬取的網(wǎng)站采取了反爬取技術(shù)導(dǎo)致爬取失敗。高強(qiáng)度、高效率地爬取網(wǎng)頁信息常常會給網(wǎng)站服務(wù)器帶來巨大壓力，所以同一個(gè)IP反復(fù)爬取同一個(gè)網(wǎng)頁，就很可能被封，所以下面這篇文章講述一個(gè)爬蟲技巧，設(shè)置代理IP

這里介紹一下免費(fèi)獲取代理IP的方法，這個(gè)方法的優(yōu)點(diǎn)就是免費(fèi)，但是缺點(diǎn)就是爬取后存在很多不能用的

IP地址取自國內(nèi)髙匿代理IP網(wǎng)站，西刺代理，我們爬取首頁IP地址就足夠一般使用，或者你也可以爬取第一頁，第二頁…的

配置環(huán)境

安裝requests庫
安裝bs4庫
安裝lxml庫

具體代碼

話不多說直接上代碼吧

from bs4 import BeautifulSoup
import requests
import random

def get_ip_list(url, headers):
 web_data = requests.get(url, headers=headers)
 soup = BeautifulSoup(web_data.text, 'lxml')
 ips = soup.find_all('tr')
 ip_list = []
 for i in range(1, len(ips)):
  ip_info = ips[i]
  tds = ip_info.find_all('td')
  ip_list.append(tds[1].text + ':' + tds[2].text)
 return ip_list

def get_random_ip(ip_list):
 proxy_list = []
 for ip in ip_list:
  proxy_list.append('http://' + ip)
 proxy_ip = random.choice(proxy_list)
 proxies = {'http': proxy_ip}
 return proxies

if __name__ == '__main__':
 url = 'http://www.xicidaili.com/nn/'
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.60 Safari/537.17'
 }
 ip_list = get_ip_list(url, headers=headers)
 proxies = get_random_ip(ip_list)
 print(proxies)

函數(shù)get_ip_list(url, headers)傳入url和headers，最后返回一個(gè)IP列表，列表的元素類似122.114.31.177:808格式，這個(gè)列表包括國內(nèi)髙匿代理IP網(wǎng)站首頁所有IP地址和端口

函數(shù)get_random_ip(ip_list)傳入第一個(gè)函數(shù)得到的列表，返回一個(gè)隨機(jī)的proxies，這個(gè)proxies可以傳入到requests的get方法中，這樣就可以做到每次運(yùn)行都使用不同的IP訪問被爬取的網(wǎng)站，有效地避免了真實(shí)IP被封的風(fēng)險(xiǎn)

proxies的格式是一個(gè)字典： {‘http': ‘http://122.114.31.177:808‘} ，可以將下面的執(zhí)行也封裝為方法

對于抓取IP這個(gè)，西刺代理的服務(wù)器做了反爬處理，如果你頻繁去抓取的話，服務(wù)器會主動(dòng)返回503錯(cuò)誤，提示block，所以在請求的時(shí)候可以先一次請求完保存一個(gè)文件，來讀取這個(gè)文件，或者爬取一個(gè)ip使用幾分鐘后，再去爬取一次，相當(dāng)于加一個(gè)定時(shí)功能

代理IP的使用

運(yùn)行上面的代碼會得到一個(gè)隨機(jī)的proxies，把它直接傳入requests的get方法中即可

res = requests.get(url, headers=headers, proxies=proxies)

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，如果有疑問大家可以留言交流，謝謝大家對腳本之家的支持。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲常用小技巧之設(shè)置代理IP

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具