快捷導(dǎo)航

python 爬蟲出現(xiàn)403禁止訪問(wèn)錯(cuò)誤詳解

更新時(shí)間：2017年03月11日 15:42:11 作者：完美風(fēng)暴4

這篇文章主要介紹了 python 爬蟲解決403禁止訪問(wèn)錯(cuò)誤的相關(guān)資料,需要的朋友可以參考下

python 爬蟲解決403禁止訪問(wèn)錯(cuò)誤

在Python寫爬蟲的時(shí)候，html.getcode()會(huì)遇到403禁止訪問(wèn)的問(wèn)題，這是網(wǎng)站對(duì)自動(dòng)化爬蟲的禁止，要解決這個(gè)問(wèn)題，需要用到python的模塊urllib2模塊

urllib2模塊是屬于一個(gè)進(jìn)階的爬蟲抓取模塊，有非常多的方法，比方說(shuō)連接url=//www.dbjr.com.cn/qysh123對(duì)于這個(gè)連接就有可能出現(xiàn)403禁止訪問(wèn)的問(wèn)題

解決這個(gè)問(wèn)題，需要以下幾步驟：

<span style="font-size:18px;">req = urllib2.Request(url) 
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") 
req.add_header("GET",url) 
req.add_header("Host","blog.csdn.net") 
req.add_header("Referer","http://www.dbjr.com.cn/")

其中User-Agent是瀏覽器特有的屬性，通過(guò)瀏覽器查看源代碼就可以查看到

然后

html=urllib2.urlopen(req)


print html.read()

就可以把網(wǎng)頁(yè)代碼全部下載下來(lái)，而沒(méi)有了403禁止訪問(wèn)的問(wèn)題。

對(duì)于以上問(wèn)題，可以封裝成函數(shù)，供以后調(diào)用方便使用，具體代碼：

#-*-coding:utf-8-*- 
 
import urllib2 
import random 
 
url="http://www.dbjr.com.cn/article/1.htm" 
 
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", 
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0" 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", 
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" 
  
] 
def get_content(url,headers): 
 ''''' 
 @獲取403禁止訪問(wèn)的網(wǎng)頁(yè) 
 ''' 
 randdom_header=random.choice(headers) 
 
 req=urllib2.Request(url) 
 req.add_header("User-Agent",randdom_header) 
 req.add_header("Host","blog.csdn.net") 
 req.add_header("Referer","http://www.dbjr.com.cn/") 
 req.add_header("GET",url) 
 
 content=urllib2.urlopen(req).read() 
 return content 
 
print get_content(url,my_headers)

其中用到了random隨機(jī)函數(shù)，自動(dòng)獲取已經(jīng)寫好的瀏覽器類型的User-Agent信息，在自定義函數(shù)中需要寫出自己的Host,Referer,GET信息等，解決這幾個(gè)問(wèn)題，就可以順利訪問(wèn)了，不再出現(xiàn)403訪問(wèn)的信息。

當(dāng)然如果訪問(wèn)頻率過(guò)快的話，有些網(wǎng)站還是會(huì)過(guò)濾的，解決這個(gè)需要用到代理IP的方法。。。具體的自己解決

感謝閱讀，希望能幫助到大家，謝謝大家對(duì)本站的支持！

您可能感興趣的文章:

相關(guān)文章

基于注解實(shí)現(xiàn) SpringBoot 接口防刷的方法
這篇文章主要介紹了基于注解實(shí)現(xiàn) SpringBoot 接口防刷的方法，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2021-03-03
使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例
今天小編就為大家分享一篇使用python進(jìn)行文本預(yù)處理和提取特征的實(shí)例，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2018-06-06
python matplotlib模塊基本圖形繪制方法小結(jié)【直線，曲線，直方圖，餅圖等】
這篇文章主要介紹了python matplotlib模塊基本圖形繪制方法,結(jié)合實(shí)例形式總結(jié)分析了Python使用matplotlib模塊繪制直線，曲線，直方圖，餅圖等圖形的相關(guān)操作技巧,需要的朋友可以參考下
2020-04-04
Keras官方中文文檔:性能評(píng)估Metrices詳解
這篇文章主要介紹了Keras官方中文文檔:性能評(píng)估Metrices詳解，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2020-06-06
python對(duì)XML文件的操作實(shí)現(xiàn)代碼
這篇文章主要介紹了python對(duì)XML文件的操作實(shí)現(xiàn)代碼,文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-03-03
python用pyecharts畫矩形樹圖實(shí)例
大家好，本篇文章主要講的是python用pyecharts畫矩形樹圖實(shí)例，感興趣的同學(xué)趕快來(lái)看一看吧，對(duì)你有幫助的話記得收藏一下
2022-01-01
使用Python實(shí)現(xiàn)廣告點(diǎn)擊率預(yù)測(cè)
廣告點(diǎn)擊率是指有多少用戶點(diǎn)擊了您的廣告與有多少用戶查看了您的廣告的比率,本文主要為大家介紹了如何使用Python實(shí)現(xiàn)廣告點(diǎn)擊率預(yù)測(cè),感興趣的小伙伴可以了解下
2023-10-10
Python控制臺(tái)獲取輸入與常見的正則表達(dá)式用法
這篇文章主要給大家介紹了關(guān)于Python控制臺(tái)獲取輸入與常見的正則表達(dá)式用法的相關(guān)資料,在Python編程中,控制臺(tái)輸入和正則表達(dá)式是兩個(gè)重要而實(shí)用的概念,文中通過(guò)代碼介紹的非常詳細(xì),需要的朋友可以參考下
2023-12-12
python銀行卡號(hào)碼校驗(yàn)Luhn模10算法
這篇文章主要為大家介紹了python銀行卡號(hào)碼校驗(yàn)Luhn模10算法，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪
2022-05-05
python爬取百度貼吧前1000頁(yè)內(nèi)容（requests庫(kù)面向?qū)ο笏枷雽?shí)現(xiàn)）
這篇文章主要介紹了python爬取百度貼吧前1000頁(yè)內(nèi)容（requests庫(kù)面向?qū)ο笏枷雽?shí)現(xiàn)）,文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2019-08-08