Python3爬蟲學(xué)習(xí)之應(yīng)對網(wǎng)站反爬蟲機(jī)制的方法分析
本文實例講述了Python3爬蟲學(xué)習(xí)之應(yīng)對網(wǎng)站反爬蟲機(jī)制的方法。分享給大家供大家參考,具體如下:
如何應(yīng)對網(wǎng)站的反爬蟲機(jī)制
在訪問某些網(wǎng)站的時候,網(wǎng)站通常會用判斷訪問是否帶有頭文件來鑒別該訪問是否為爬蟲,用來作為反爬取的一種策略。
例如打開搜狐首頁,先來看一下Chrome的頭信息(F12打開開發(fā)者模式)如下:
如圖,訪問頭信息中顯示了瀏覽器以及系統(tǒng)的信息(headers所含信息眾多,具體可自行查詢)
Python中urllib中的request模塊提供了模擬瀏覽器訪問的功能,代碼如下:
from urllib import request url = 'http://www.baidu.com' # page = request.Request(url) # page.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36') headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} page = request.Request(url, headers=headers) page_info = request.urlopen(page).read().decode('utf-8') print(page_info)
可以通過add_header(key, value)
或者直接以參數(shù)的形式和URL一起請求訪問,
urllib.request.Request() urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
其中headers是一個字典,通過這種方式可以將爬蟲模擬成瀏覽器對網(wǎng)站進(jìn)行訪問。
https://docs.python.org/3/library/urllib.request.html?highlight=request#module-urllib.request
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設(shè)計有所幫助。
相關(guān)文章
Python如何用filter函數(shù)篩選數(shù)據(jù)
這篇文章主要介紹了Python如何用filter函數(shù)篩選數(shù)據(jù),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-03-03Python.append()與Python.expand()用法詳解
今天小編就為大家分享一篇Python.append()與Python.expand()用法詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12pycharm 實現(xiàn)本地寫代碼,服務(wù)器運(yùn)行的操作
這篇文章主要介紹了pycharm 實現(xiàn)本地寫代碼,服務(wù)器運(yùn)行的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06PyTorch?可視化工具TensorBoard和Visdom
這篇文章主要介紹了PyTorch?可視化工具TensorBoard和Visdom,TensorBoard?一般都是作為?TensorFlow?的可視化工具,與?TensorFlow?深度集成,它能夠展現(xiàn)?TensorFlow?的網(wǎng)絡(luò)計算圖,繪制圖像生成的定量指標(biāo)圖以及附加數(shù)據(jù)等,下面來看文章得具體內(nèi)容介紹吧2022-01-01Python報錯:PermissionError:?[Errno?13]?Permission?denied的解
這篇文章主要給大家介紹了關(guān)于Python報錯:PermissionError:?[Errno?13]?Permission?denied的解決辦法,文中給出了詳細(xì)的解決辦法,需要的朋友可以參考下2022-02-02