欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲防封ip的一些技巧

 更新時間:2020年08月06日 10:31:00   作者:小雨  
這篇文章主要介紹了Python爬蟲防封ip的一些技巧,對平時學(xué)習(xí)爬蟲有所幫助,感興趣的朋友可以了解下

在編寫爬蟲爬取數(shù)據(jù)的時候,因為很多網(wǎng)站都有反爬蟲措施,所以很容易被封IP,就不能繼續(xù)爬了。在爬取大數(shù)據(jù)量的數(shù)據(jù)時更是瑟瑟發(fā)抖,時刻擔(dān)心著下一秒IP可能就被封了。

本文就如何解決這個問題總結(jié)出一些應(yīng)對措施,這些措施可以單獨使用,也可以同時使用,效果更好。

偽造User-Agent

在請求頭中把User-Agent設(shè)置成瀏覽器中的User-Agent,來偽造瀏覽器訪問。比如:

headers ={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'} resp = requests.get(url,headers = headers)

還可以先收集多種瀏覽器的User-Agent,每次發(fā)起請求時隨機從中選一個使用,可以進一步提高安全性:

把上面隨機選擇一個User-Agent的代碼封裝成一個函數(shù):

在每次重復(fù)爬取之間設(shè)置一個隨機時間間隔

比如:

time.sleep(random.randint(0,3)) # 暫停0~3秒的整數(shù)秒,時間區(qū)間:[0,3]

或:

time.sleep(random.random()) # 暫停0~1秒,時間區(qū)間:[0,1)

偽造cookies

若從瀏覽器中可以正常訪問一個頁面,則可以將瀏覽器中的cookies復(fù)制過來使用,比如:

注:用瀏覽器cookies發(fā)起請求后,如果請求頻率過于頻繁仍會被封IP,這時可以在瀏覽器上進行相應(yīng)的手工驗證(比如點擊驗證圖片等),然后就可以繼續(xù)正常使用該cookies發(fā)起請求。

使用代理

可以換著用多個代理IP來進行訪問,防止同一個IP發(fā)起過多請求而被封IP,比如:

附:GitHub上的一個"反反爬蟲"項目

道高一尺魔高一丈,你有反爬蟲措施,那我也有各種"反反爬蟲"的措施,GitHub上就有一位大神專門整理了一個這樣的項目:Anti-Anti-Spider,鏈接地址為:github.com/luyishisi/An可以研究一下。

以上就是Python爬蟲防封ip的一些技巧的詳細內(nèi)容,更多關(guān)于Python爬蟲防封ip的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • python注釋和運算符詳解

    python注釋和運算符詳解

    這篇文章主要為大家介紹了python注釋和運算符,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
    2021-12-12
  • python如何讀取bin文件并下發(fā)串口

    python如何讀取bin文件并下發(fā)串口

    這篇文章主要介紹了python如何讀取bin文件并下發(fā)串口,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-07-07
  • python+pyhyper實現(xiàn)識別圖片中的車牌號思路詳解

    python+pyhyper實現(xiàn)識別圖片中的車牌號思路詳解

    最近領(lǐng)導(dǎo)給布置了一個基于圖片識別車牌號的工具開發(fā)任務(wù),然后就去研究實現(xiàn)邏輯,自己根據(jù)opencv寫了一個小demo,發(fā)現(xiàn)不僅速度慢而且成功率極低。然后,就找到了Hyperlpr開源項目,這篇文章主要介紹了python+pyhyper實現(xiàn)識別圖片中的車牌號,需要的朋友可以參考下
    2022-12-12
  • python在windows和linux下獲得本機本地ip地址方法小結(jié)

    python在windows和linux下獲得本機本地ip地址方法小結(jié)

    這篇文章主要介紹了python在windows和linux下獲得本機本地ip地址方法,實例分析了Python獲得IP地址的技巧,具有一定參考借鑒價值,需要的朋友可以參考下
    2015-03-03
  • Python使用Numpy模塊讀取文件并繪制圖片

    Python使用Numpy模塊讀取文件并繪制圖片

    這篇文章主要介紹了Python使用Numpy模塊讀取文件并繪制圖片,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-05-05
  • python可變對象,不可變對象詳解

    python可變對象,不可變對象詳解

    這篇文章主要介紹了Python可變對象和不可變對象的相關(guān)資料,文中講解非常細致,代碼幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下
    2021-09-09
  • 利用Python獲取操作系統(tǒng)信息實例

    利用Python獲取操作系統(tǒng)信息實例

    作為一個運維人員,經(jīng)常需要獲取系統(tǒng)的的各種信息,使用python會很方便幫助獲得,這篇文章運用實例告訴大家如何利用Python來獲取操作系統(tǒng)的信息,有需要的可以參考借鑒。
    2016-09-09
  • jupyter notebook 添加kernel permission denied的操作

    jupyter notebook 添加kernel permission denied的操作

    這篇文章主要介紹了jupyter notebook 添加kernel permission denied的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • python3.6.3安裝圖文教程 TensorFlow安裝配置方法

    python3.6.3安裝圖文教程 TensorFlow安裝配置方法

    這篇文章主要為大家詳細介紹了python3.6.3及TensorFlow安裝配置方法圖文教程,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-09-09
  • python兩種獲取剪貼板內(nèi)容的方法

    python兩種獲取剪貼板內(nèi)容的方法

    這篇文章主要介紹了python兩種獲取剪貼板內(nèi)容的方法,幫助大家更好的理解和使用python,完成需求,感興趣的朋友可以了解下
    2020-11-11

最新評論