快捷導(dǎo)航

Python3爬蟲學(xué)習(xí)之應(yīng)對網(wǎng)站反爬蟲機(jī)制的方法分析

更新時(shí)間：2018年12月12日 08:39:35 作者：Sailfish23

這篇文章主要介紹了Python3爬蟲學(xué)習(xí)之應(yīng)對網(wǎng)站反爬蟲機(jī)制的方法,結(jié)合實(shí)例形式分析了Python3模擬瀏覽器運(yùn)行來應(yīng)對反爬蟲機(jī)制的相關(guān)操作技巧,需要的朋友可以參考下

本文實(shí)例講述了Python3爬蟲學(xué)習(xí)之應(yīng)對網(wǎng)站反爬蟲機(jī)制的方法。分享給大家供大家參考，具體如下：

如何應(yīng)對網(wǎng)站的反爬蟲機(jī)制

在訪問某些網(wǎng)站的時(shí)候，網(wǎng)站通常會(huì)用判斷訪問是否帶有頭文件來鑒別該訪問是否為爬蟲，用來作為反爬取的一種策略。

例如打開搜狐首頁，先來看一下Chrome的頭信息（F12打開開發(fā)者模式）如下：

如圖，訪問頭信息中顯示了瀏覽器以及系統(tǒng)的信息（headers所含信息眾多，具體可自行查詢）

Python中urllib中的request模塊提供了模擬瀏覽器訪問的功能，代碼如下：

from urllib import request
url = 'http://www.baidu.com'
# page = request.Request(url)
# page.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url, headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')
print(page_info)

可以通過add_header(key, value) 或者直接以參數(shù)的形式和URL一起請求訪問，

urllib.request.Request()
urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

其中headers是一個(gè)字典，通過這種方式可以將爬蟲模擬成瀏覽器對網(wǎng)站進(jìn)行訪問。
https://docs.python.org/3/library/urllib.request.html?highlight=request#module-urllib.request

更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題：《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對大家Python程序設(shè)計(jì)有所幫助。

您可能感興趣的文章:

相關(guān)文章

通過python實(shí)現(xiàn)彈窗廣告攔截過程詳解
這篇文章主要介紹了通過python實(shí)現(xiàn)彈窗廣告攔截過程詳解,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2019-07-07
Python如何用filter函數(shù)篩選數(shù)據(jù)
這篇文章主要介紹了Python如何用filter函數(shù)篩選數(shù)據(jù),文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-03-03
Python.append()與Python.expand()用法詳解
今天小編就為大家分享一篇Python.append()與Python.expand()用法詳解，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-12-12
pycharm 實(shí)現(xiàn)本地寫代碼,服務(wù)器運(yùn)行的操作
這篇文章主要介紹了pycharm 實(shí)現(xiàn)本地寫代碼,服務(wù)器運(yùn)行的操作，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-06-06
python實(shí)現(xiàn)隨機(jī)漫步算法
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)隨機(jī)漫步算法，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-08-08
PyTorch?可視化工具TensorBoard和Visdom
這篇文章主要介紹了PyTorch?可視化工具TensorBoard和Visdom，TensorBoard?一般都是作為?TensorFlow?的可視化工具，與?TensorFlow?深度集成，它能夠展現(xiàn)?TensorFlow?的網(wǎng)絡(luò)計(jì)算圖，繪制圖像生成的定量指標(biāo)圖以及附加數(shù)據(jù)等，下面來看文章得具體內(nèi)容介紹吧
2022-01-01
Python報(bào)錯(cuò):PermissionError:?[Errno?13]?Permission?denied的解
這篇文章主要給大家介紹了關(guān)于Python報(bào)錯(cuò):PermissionError:?[Errno?13]?Permission?denied的解決辦法,文中給出了詳細(xì)的解決辦法,需要的朋友可以參考下
2022-02-02
在本篇文章里小編給大家分享了關(guān)于python面向?qū)ο蟮南嚓P(guān)基礎(chǔ)知識(shí)點(diǎn)，有興趣的朋友們跟著學(xué)習(xí)下。
2020-06-06