快捷導(dǎo)航

python網(wǎng)絡(luò)爬蟲(chóng)之如何偽裝逃過(guò)反爬蟲(chóng)程序的方法

更新時(shí)間：2017年11月23日 09:15:03 作者：Master HaKu

本篇文章主要介紹了python網(wǎng)絡(luò)爬蟲(chóng)之如何偽裝逃過(guò)反爬蟲(chóng)程序的方法，小編覺(jué)得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧

有的時(shí)候，我們本來(lái)寫得好好的爬蟲(chóng)代碼，之前還運(yùn)行得Ok, 一下子突然報(bào)錯(cuò)了。

報(bào)錯(cuò)信息如下：

Http 800 Internal internet error

這是因?yàn)槟愕膶?duì)象網(wǎng)站設(shè)置了反爬蟲(chóng)程序，如果用現(xiàn)有的爬蟲(chóng)代碼，會(huì)被拒絕。

之前正常的爬蟲(chóng)代碼如下：

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")

這個(gè)時(shí)候，需要我們給我們的爬蟲(chóng)代碼做下偽裝，

給它添加表頭偽裝成是來(lái)自瀏覽器的請(qǐng)求

修改后的代碼如下：

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
 
bsObj = BeautifulSoup(html, "html.parser")

Ok,一切搞定，又可以繼續(xù)爬了。

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

python實(shí)現(xiàn)每天自動(dòng)簽到領(lǐng)積分的示例代碼
這篇文章主要介紹了python實(shí)現(xiàn)每天自動(dòng)簽到領(lǐng)積分的示例代碼，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2020-08-08
Python xlrd讀取excel日期類型的2種方法
這篇文章主要介紹了Python xlrd讀取excel日期類型的2種方法,本文同時(shí)講解了xlrd讀取excel某個(gè)單元格的方法,需要的朋友可以參考下
2015-04-04
Matplotlib可視化之添加讓統(tǒng)計(jì)圖變得簡(jiǎn)單易懂的注釋
今天給大家?guī)?lái)的文章是關(guān)于Python的,文章圍繞著Python Matplotlib可視化展開(kāi),文中非常詳細(xì)的介紹了如何給統(tǒng)計(jì)圖添加注釋,需要的朋友可以參考下
2021-06-06
簡(jiǎn)單聊聊Python中的鴨子類型和猴子補(bǔ)丁
不知不覺(jué)使用python寫代碼已經(jīng)很長(zhǎng)時(shí)間了,下面這篇文章主要給大家介紹了關(guān)于python鴨子類型(duck?type)和猴子補(bǔ)丁(mokey?patching)的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下
2022-04-04
詳解python中[-1]、[:-1]、[::-1]、[n::-1]使用方法
這篇文章主要介紹了詳解python中[-1]、[:-1]、[::-1]、[n::-1]使用方法，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2021-04-04
Win7與Win10下的Tensorboard可視化問(wèn)題
這篇文章主要介紹了Win7與Win10下的Tensorboard可視化問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
2023-09-09
python實(shí)現(xiàn)自動(dòng)化報(bào)表功能(Oracle/plsql/Excel/多線程)
這篇文章主要介紹了python實(shí)現(xiàn)自動(dòng)化報(bào)表(Oracle/plsql/Excel/多線程)的相關(guān)知識(shí)，本文給大家介紹的非常詳細(xì)，具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
2019-12-12
python list等分并從等分的子集中隨機(jī)選取一個(gè)數(shù)
這篇文章主要介紹了python list等分并從等分的子集中隨機(jī)選取一個(gè)數(shù)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2020-11-11
python常用函數(shù)詳解
本文給大家總結(jié)了python中常用函數(shù)，非常的細(xì)致全面，有需要的小伙伴可以參考下
2016-09-09
關(guān)于Python 的簡(jiǎn)單柵格圖像邊界提取方法
今天小編就為大家分享一篇關(guān)于Python 的簡(jiǎn)單柵格圖像邊界提取方法，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2019-07-07