欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python3爬蟲學(xué)習(xí)之應(yīng)對網(wǎng)站反爬蟲機(jī)制的方法分析

 更新時間:2018年12月12日 08:39:35   作者:Sailfish23  
這篇文章主要介紹了Python3爬蟲學(xué)習(xí)之應(yīng)對網(wǎng)站反爬蟲機(jī)制的方法,結(jié)合實例形式分析了Python3模擬瀏覽器運(yùn)行來應(yīng)對反爬蟲機(jī)制的相關(guān)操作技巧,需要的朋友可以參考下

本文實例講述了Python3爬蟲學(xué)習(xí)之應(yīng)對網(wǎng)站反爬蟲機(jī)制的方法。分享給大家供大家參考,具體如下:

如何應(yīng)對網(wǎng)站的反爬蟲機(jī)制

在訪問某些網(wǎng)站的時候,網(wǎng)站通常會用判斷訪問是否帶有頭文件來鑒別該訪問是否為爬蟲,用來作為反爬取的一種策略。

例如打開搜狐首頁,先來看一下Chrome的頭信息(F12打開開發(fā)者模式)如下:

如圖,訪問頭信息中顯示了瀏覽器以及系統(tǒng)的信息(headers所含信息眾多,具體可自行查詢)

Python中urllib中的request模塊提供了模擬瀏覽器訪問的功能,代碼如下:

from urllib import request
url = 'http://www.baidu.com'
# page = request.Request(url)
# page.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url, headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')
print(page_info)

可以通過add_header(key, value) 或者直接以參數(shù)的形式和URL一起請求訪問,

urllib.request.Request()
urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

其中headers是一個字典,通過這種方式可以將爬蟲模擬成瀏覽器對網(wǎng)站進(jìn)行訪問。
https://docs.python.org/3/library/urllib.request.html?highlight=request#module-urllib.request

更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總

希望本文所述對大家Python程序設(shè)計有所幫助。

相關(guān)文章

  • python實現(xiàn)點對點聊天程序

    python實現(xiàn)點對點聊天程序

    這篇文章主要為大家詳細(xì)介紹了python實現(xiàn)點對點聊天程序,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-07-07
  • Django3.0 異步通信初體驗(小結(jié))

    Django3.0 異步通信初體驗(小結(jié))

    這篇文章主要介紹了Django3.0 異步通信初體驗,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-12-12
  • 最新評論