欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python中繞過反爬蟲的方法總結(jié)

 更新時(shí)間:2020年11月25日 15:57:52   作者:小妮淺淺  
在本篇文章里小編給大家整理的是一篇關(guān)于python中繞過反爬蟲的方法總結(jié)內(nèi)容,需要的朋友們可以參考下。

我們?cè)诘巧降耐局?,有不同的路線可以到達(dá)終點(diǎn)。因?yàn)檫x擇的路線不同,上山的難度也有區(qū)別。就像最近幾天教大家獲取數(shù)據(jù)的時(shí)候,斷斷續(xù)續(xù)的講過header、地址ip等一些的方法。具體的爬取方法相信大家已經(jīng)掌握住,本篇小編主要是給大家進(jìn)行應(yīng)對(duì)反爬蟲方法的一個(gè)梳理,在進(jìn)行方法回顧的同時(shí)查漏補(bǔ)缺,建立系統(tǒng)的爬蟲知識(shí)框架。

首先分析要爬的網(wǎng)站,本質(zhì)是一個(gè)信息查詢系統(tǒng),提供了搜索頁面。例如我想獲取某個(gè)case,需要利用這個(gè)case的id或者name字段,才能搜索到這個(gè)case的頁面。

出于對(duì)安全的考慮,有些網(wǎng)站會(huì)做一些反爬的措施,例如之前講到的需要判斷user-angent和cookies,或者判斷請(qǐng)求的ip是否在短時(shí)間內(nèi)多次訪問。該網(wǎng)站用的是知道創(chuàng)宇的安全服務(wù),頻繁訪問會(huì)提示ip行為不正常。 

瀏覽器本質(zhì)也是一個(gè)應(yīng)用程序,只要ip不被封,既然可以通過瀏覽器訪問,那么我們自己寫程序來請(qǐng)求也是應(yīng)該沒有問題的。 

一些常見的繞過反爬蟲的措施有:

  • 構(gòu)造消息頭:如上所說的user-angent和cookies都包含在消息頭當(dāng)中。
  • 延長請(qǐng)求間隔:如果快速頻繁的發(fā)送請(qǐng)求,會(huì)大量搶占服務(wù)器資源,一般這種情況下很容易被網(wǎng)站的安全措施檢測(cè)出來并且封掉ip。所以適當(dāng)?shù)难娱L請(qǐng)求間隔,例如隨機(jī)隔2-5秒不等再發(fā)送下一次請(qǐng)求。
  • 使用代理ip,解決ip檢測(cè)問題。

當(dāng)然常見的反爬蟲方法也不止以上的這些,這里只羅列出這常用的三種方法,有概念模糊的可以去往期的文章翻閱,其他的繞過反爬蟲方法

到此這篇關(guān)于python中繞過反爬蟲的方法總結(jié)的文章就介紹到這了,更多相關(guān)python中繞過反爬蟲的方法有哪些內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python實(shí)現(xiàn)在IDLE中輸入多行的方法

    python實(shí)現(xiàn)在IDLE中輸入多行的方法

    下面小編就為大家分享一篇python實(shí)現(xiàn)在IDLE中輸入多行的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • Python格式化日期時(shí)間操作示例

    Python格式化日期時(shí)間操作示例

    這篇文章主要介紹了Python格式化日期時(shí)間操作,結(jié)合實(shí)例形式分析了Python使用time模塊針對(duì)日期時(shí)間的獲取、轉(zhuǎn)換、格式化、判斷等相關(guān)操作技巧,需要的朋友可以參考下
    2018-06-06
  • Django中模版的子目錄與include標(biāo)簽的使用方法

    Django中模版的子目錄與include標(biāo)簽的使用方法

    這篇文章主要介紹了Django中模版的子目錄與include標(biāo)簽的使用方法,有利于Python的Django框架的模版布局,需要的朋友可以參考下
    2015-07-07
  • matplotlib簡(jiǎn)介,安裝和簡(jiǎn)單實(shí)例代碼

    matplotlib簡(jiǎn)介,安裝和簡(jiǎn)單實(shí)例代碼

    這篇文章主要介紹了matplotlib簡(jiǎn)介,安裝和簡(jiǎn)單實(shí)例代碼,具有一定借鑒價(jià)值,需要的朋友可以參考下。
    2017-12-12
  • Python如何做點(diǎn)擊率數(shù)據(jù)預(yù)測(cè)

    Python如何做點(diǎn)擊率數(shù)據(jù)預(yù)測(cè)

    這篇文章主要介紹了Python做點(diǎn)擊率數(shù)據(jù)預(yù)測(cè),在這個(gè)場(chǎng)景中,我們通常需要根據(jù)用戶的歷史行為、物品的特征、上下文信息等因素來預(yù)測(cè)用戶點(diǎn)擊某個(gè)特定物品(如廣告、推薦商品)的概率,需要的朋友可以參考下
    2024-06-06
  • Python 實(shí)現(xiàn)Numpy中找出array中最大值所對(duì)應(yīng)的行和列

    Python 實(shí)現(xiàn)Numpy中找出array中最大值所對(duì)應(yīng)的行和列

    今天小編就為大家分享一篇Python 實(shí)現(xiàn)Numpy中找出array中最大值所對(duì)應(yīng)的行和列,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-11-11
  • 使用Django和Flask獲取訪問來源referrer

    使用Django和Flask獲取訪問來源referrer

    這篇文章主要介紹了使用Django和Flask獲取訪問來源referrer,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • Python從臨時(shí)郵箱獲取驗(yàn)證碼的操作代碼

    Python從臨時(shí)郵箱獲取驗(yàn)證碼的操作代碼

    這篇文章主要介紹了Python從臨時(shí)郵箱獲取驗(yàn)證碼的操作代碼,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2023-08-08
  • python 實(shí)現(xiàn)dict轉(zhuǎn)json并保存文件

    python 實(shí)現(xiàn)dict轉(zhuǎn)json并保存文件

    今天小編就為大家分享一篇python 實(shí)現(xiàn)dict轉(zhuǎn)json并保存文件,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • pytorch+sklearn實(shí)現(xiàn)數(shù)據(jù)加載的流程

    pytorch+sklearn實(shí)現(xiàn)數(shù)據(jù)加載的流程

    這篇文章主要介紹了pytorch+sklearn實(shí)現(xiàn)數(shù)據(jù)加載,之前在訓(xùn)練網(wǎng)絡(luò)的時(shí)候加載數(shù)據(jù)都是稀里糊涂的放進(jìn)去的,也沒有理清楚里面的流程,今天整理一下,加深理解,也方便以后查閱,需要的朋友可以參考下
    2022-11-11

最新評(píng)論