快捷導(dǎo)航

python爬蟲之代理ip正確使用方法實(shí)例

更新時(shí)間：2022年07月07日 08:54:14 作者：昊昊該干飯了

在爬蟲的過(guò)程中,我們經(jīng)常會(huì)遇見很多網(wǎng)站采取了防爬蟲技術(shù),或者說(shuō)因?yàn)樽约翰杉W(wǎng)站信息的強(qiáng)度和采集速度太大,給對(duì)方服務(wù)器帶去了太多的壓力,下面這篇文章主要給大家介紹了關(guān)于python爬蟲之代理ip正確使用方法的相關(guān)資料,需要的朋友可以參考下

代理ip原理

輸入網(wǎng)址后發(fā)生了什么呢？

1.瀏覽器獲取域名

2.通過(guò)DNS協(xié)議獲取域名對(duì)應(yīng)服務(wù)器的ip地址

3.瀏覽器和對(duì)應(yīng)的服務(wù)器通過(guò)三次握手建立TCP連接

4.瀏覽器通過(guò)HTTP協(xié)議向服務(wù)器發(fā)送數(shù)據(jù)請(qǐng)求

5.服務(wù)器將查詢結(jié)果返回給瀏覽器

6.四次揮手釋放TCP連接

7.瀏覽器渲染結(jié)果

其中涉及到了：

應(yīng)用層：HTTP和DNS

傳輸層：TCP UDP

網(wǎng)絡(luò)層：IP ICMP ARP

代理ip做了什么呢？

簡(jiǎn)單來(lái)說(shuō)，就是：

原本你的訪問(wèn)

使用代理后你的訪問(wèn)

為什么要用代理呢？

因?yàn)槲覀冊(cè)谧雠老x的過(guò)程中經(jīng)常會(huì)遇到這樣的情況，最初爬蟲正常運(yùn)行，正常抓取數(shù)據(jù)，一切看起來(lái)都是那么美好，然而一杯茶的功夫可能就會(huì)出現(xiàn)錯(cuò)誤，比如403 Forbidden，這時(shí)候打開網(wǎng)頁(yè)一看，可能會(huì)看到“您的IP訪問(wèn)頻率太高”這樣的提示。出現(xiàn)這種現(xiàn)象的原因是網(wǎng)站采取了一些反爬蟲措施。比如，服務(wù)器會(huì)檢測(cè)某個(gè)IP在單位時(shí)間內(nèi)的請(qǐng)求次數(shù)，如果超過(guò)了這個(gè)閾值，就會(huì)直接拒絕服務(wù)，返回一些錯(cuò)誤信息，這種情況可以稱為封IP。而代理ip就避免了這個(gè)問(wèn)題：

爬蟲代碼中使用代理ip

就像是請(qǐng)求時(shí)偽裝頭一樣，偽裝ip，注意是 { }

proxies = {
           'https':'117.29.228.43:64257',
           'http':'117.29.228.43:64257'
       }
 
requests.get(url, headers=head, proxies=proxies, timeout=3) #proxies

檢驗(yàn)代理ip是否生效

我們?cè)L問(wèn)一個(gè)網(wǎng)站，這個(gè)網(wǎng)站會(huì)返回我們的ip地址：

print(requests.get('http://httpbin.org/ip', proxies=proxies, timeout=3).text)

我們看一下我使用了四個(gè)不同的代理ip，全部生效了，

未生效問(wèn)題排查

如果你返回的還是本機(jī)地址，99%試一下兩種情況之一：

1.請(qǐng)求協(xié)議不匹配

簡(jiǎn)單來(lái)說(shuō)就是，如果你請(qǐng)求的是http，就要用http的協(xié)議，如果是https，就要用https的協(xié)議。

如果我請(qǐng)求是http ，但只有https，就會(huì)使用本機(jī)ip。

2.代理失效

便宜沒(méi)好貨，好貨不便宜。如果確實(shí)大規(guī)模爬蟲是必須的話，還是買代理ip比較好，網(wǎng)上廣告滿天飛的某些代理實(shí)際性價(jià)比有些低了，自己常用的就不分享了，總是被當(dāng)成廣告，推薦一些其他的比如：

1、IPIDEA

2、Stormproxies

3、YourPrivateProxy

4、GeoSurf

當(dāng)然還有大家熟知的快代理，西刺等等，都有一些免費(fèi)代理可供使用。

總結(jié)

到此這篇關(guān)于python爬蟲之代理ip正確使用方法的文章就介紹到這了,更多相關(guān)python爬蟲代理ip內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫(kù)

CMS

常用工具

python爬蟲之代理ip正確使用方法實(shí)例

目錄

代理ip原理

輸入網(wǎng)址后發(fā)生了什么呢？

代理ip做了什么呢？

為什么要用代理呢？

爬蟲代碼中使用代理ip

檢驗(yàn)代理ip是否生效

未生效問(wèn)題排查

1.請(qǐng)求協(xié)議不匹配

2.代理失效

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

python爬蟲之代理ip正確使用方法實(shí)例

目錄

代理ip原理

輸入網(wǎng)址后發(fā)生了什么呢？

代理ip做了什么呢？

為什么要用代理呢？

爬蟲代碼中使用代理ip

檢驗(yàn)代理ip是否生效

未生效問(wèn)題排查

1.請(qǐng)求協(xié)議不匹配

2.代理失效

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

輸入網(wǎng)址后發(fā)生了什么呢？

代理ip做了什么呢？

為什么要用代理呢？