快捷導(dǎo)航

python爬蟲 urllib模塊反爬蟲機(jī)制UA詳解

更新時(shí)間：2019年08月20日 09:35:07 作者：minger_lcm

這篇文章主要介紹了python爬蟲 urllib模塊反爬蟲機(jī)制UA詳解,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

方法：使用urlencode函數(shù)

urllib.request.urlopen()

import urllib.request
import urllib.parse
url = 'https://www.sogou.com/web?'
#將get請求中url攜帶的參數(shù)封裝至字典中
param = {
  'query':'周杰倫'
}
#對url中的非ascii進(jìn)行編碼
param = urllib.parse.urlencode(param)
#將編碼后的數(shù)據(jù)值拼接回url中
url += param 
response = urllib.request.urlopen(url=url)
data = response.read()
with open('./周杰倫1.html','wb') as fp:
  fp.write(data)
print('寫入文件完畢')

開發(fā)者工具瀏覽器按F12或者右鍵按檢查，有個(gè)抓包工具network，刷新頁面，可以看到網(wǎng)頁資源，可以看到請求頭信息，UA

在抓包工具點(diǎn)擊任意請求,可以看到所有請求信息，向應(yīng)信息，

主要用到headers，response，response headers存放響應(yīng)頭信息，request headers 存放請求信息

反爬出機(jī)制：網(wǎng)站會檢查請求的UA，如果發(fā)現(xiàn)UA是爬蟲程序，會拒絕提供網(wǎng)站頁面數(shù)據(jù)。

如果網(wǎng)站檢查發(fā)現(xiàn)請求UA是基于某一款瀏覽器標(biāo)識(瀏覽器發(fā)起的請求)，網(wǎng)站會認(rèn)為請求是正常請求，會把頁面數(shù)據(jù)響應(yīng)信息給客戶端

User-Agent(UA)：請求載體的身份標(biāo)識

反反爬蟲機(jī)制：

偽造爬蟲程序的請求的UA，把爬蟲程序的請求UA偽造成谷歌標(biāo)識，火狐標(biāo)識

通過自定義請求對象，用于偽裝爬蟲程序請求的身份。

User-Agent參數(shù)，簡稱為UA，該參數(shù)的作用是用于表明本次請求載體的身份標(biāo)識。如果我們通過瀏覽器發(fā)起的請求，則該請求的載體為當(dāng)前瀏覽器，則UA參數(shù)的值表明的是當(dāng)前瀏覽器的身份標(biāo)識表示的一串?dāng)?shù)據(jù)。

如果我們使用爬蟲程序發(fā)起的一個(gè)請求，則該請求的載體為爬蟲程序，那么該請求的UA為爬蟲程序的身份標(biāo)識表示的一串?dāng)?shù)據(jù)。

有些網(wǎng)站會通過辨別請求的UA來判別該請求的載體是否為爬蟲程序，如果為爬蟲程序，則不會給該請求返回響應(yīng)，那么我們的爬蟲程序則也無法通過請求爬取到該網(wǎng)站中的數(shù)據(jù)值，這也是反爬蟲的一種初級技術(shù)手段。那么為了防止該問題的出現(xiàn)，則我們可以給爬蟲程序的UA進(jìn)行偽裝，偽裝成某款瀏覽器的身份標(biāo)識。

上述案例中，我們是通過request模塊中的urlopen發(fā)起的請求，該請求對象為urllib中內(nèi)置的默認(rèn)請求對象，我們無法對其進(jìn)行UA進(jìn)行更改操作。urllib還為我們提供了一種自定義請求對象的方式，我們可以通過自定義請求對象的方式，給該請求對象中的UA進(jìn)行偽裝（更改）操作。

自定義請求頭信息字典可以添加谷歌瀏覽器的UA標(biāo)識，自定義請求對象來偽裝成谷歌UA

1.封裝自定義的請求頭信息的字典，

2.注意：在headers字典中可以封裝任意的請求頭信息

3.將瀏覽器的UA數(shù)據(jù)獲取，封裝到一個(gè)字典中。該UA值可以通過抓包工具或者瀏覽器自帶的開發(fā)者工具中獲取某請求，
從中獲取UA的值

import urllib.request
import urllib.parse
url = 'https://www.sogou.com/web?query='
# url的特性：url不可以存在非ASCII編碼字符數(shù)據(jù)
word = urllib.parse.quote("周杰倫")
# 將編碼后的數(shù)據(jù)值拼接回url中
url = url+word # 有效url
# 發(fā)請求之前對請求的UA進(jìn)行偽造，偽造完再對請求url發(fā)起請求
# UA偽造
# 1 子制定一個(gè)請求對象，headers是請求頭信息，字典形式
# 封裝自定義的請求頭信息的字典，
# 注意：在headers字典中可以封裝任意的請求頭信息
headers = {
  # 存儲任意的請求頭信息
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
# 該請求對象的UA進(jìn)行了成功的偽裝
request = urllib.request.Request(url=url, headers=headers)
# 2.針對自定義請求對象發(fā)起請求
response = urllib.request.urlopen(request)
# 3.獲取響應(yīng)對象中的頁面數(shù)據(jù):read函數(shù)可以獲取響應(yīng)對象中存儲的頁面數(shù)據(jù)(byte類型的數(shù)據(jù)值)
page_text = response.read()
# 4.持久化存儲：將爬取的頁面數(shù)據(jù)寫入文件進(jìn)行保存
with open("周杰倫.html","wb") as f:
  f.write(page_text)
print("寫入數(shù)據(jù)成功")

這樣就可以突破網(wǎng)站的反爬機(jī)制

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: