快捷導(dǎo)航

python反扒機(jī)制的5種解決方法

更新時間：2021年02月06日 09:52:46 作者：其實還好啦

這篇文章主要介紹了python反扒機(jī)制的5種解決方法，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

前言

反爬蟲是網(wǎng)站為了維護(hù)自己的核心安全而采取的抑制爬蟲的手段，反爬蟲的手段有很多種，一般情況下除了百度等網(wǎng)站，反扒機(jī)制會常常更新以外。為了保持網(wǎng)站運行的高效，網(wǎng)站采取的反扒機(jī)制并不是太多，今天分享幾個我在爬蟲過程中遇到的反扒機(jī)制，并簡單介紹其解決方式。

基于User-Agent反爬

簡介：服務(wù)器后臺對訪問的User_Agent進(jìn)行統(tǒng)計，單位時間內(nèi)同一User_Agent訪問的次數(shù)超過特定的閥值，則會被不同程度的封禁IP，從而造成無法進(jìn)行爬蟲的狀況。

解決方法：

一 . 將常見的User-Agent放到ua_list中，以列表形式進(jìn)行隨機(jī)使用

代碼示例：

python干貨：5種反扒機(jī)制的解決方法

二. 加載fake_useragent庫，隨機(jī)生成User-Agent添加到headers中

代碼示例：

python干貨：5種反扒機(jī)制的解決方法

2 基于IP反爬

簡介: 爬蟲程序可能會在短時間內(nèi)對指定的服務(wù)器發(fā)起高頻的請求。后臺服務(wù)器對訪問進(jìn)行統(tǒng)計，單位時間內(nèi)同一IP訪問的次數(shù)超過一個特定的值（閥值），就會不同程度的禁封IP，導(dǎo)致無法進(jìn)行爬蟲操作。

解決方法：使用代理池，并設(shè)定延遲訪問

如何獲取代理服務(wù)器？免費：西祠代理、快代理、goubanjia 收費：代理精靈等

代碼示例：

python干貨：5種反扒機(jī)制的解決方法

3 基于cookie反扒

簡介：網(wǎng)站會通過cookie跟蹤你的訪問過程，如果發(fā)現(xiàn)有爬蟲行為會立刻中斷你的訪問，比如特別快的填寫表單，或者短時間內(nèi)瀏覽大量頁面。而正確地處理cookie，又可以避免很多采集問題，建議在采集網(wǎng)站過程中，檢查一下這些網(wǎng)站生成的cookie，然后想想哪一個是爬蟲需要處理的。

解決方法：

一手動處理

將cookie封裝到headers字典中，將該字典作用到get/post方法的headers參數(shù)中

二自動處理

需要兩次處理。第一次是為了捕獲和存儲cookie到session對象中，第二次就是用攜帶cookie的session進(jìn)行請求發(fā)送，這次請求發(fā)送就是攜帶cookie發(fā)起的請求?？梢愿鷕equests一樣調(diào)用get/post進(jìn)行請求的發(fā)送。在使用session進(jìn)行請求發(fā)送的過程中，如果產(chǎn)生了cookie，則cookie會被自動存儲session對象中

代碼示例：

#基于session自動處理
cookiesess = requests.Session() 
#該次請求只是為了捕獲cookie存儲到sess中
sess.get(url='https://xueqiu.com/',headers=headers)
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20367942&count=15&category=-1'
json_data = sess.get(url=url,headers=headers).json()json_data

4 圖片懶加載

簡介：圖片懶加載是一種網(wǎng)頁優(yōu)化技術(shù)。圖片作為一種網(wǎng)絡(luò)資源，在被請求時也與普通靜態(tài)資源一樣，將占用網(wǎng)絡(luò)資源，而一次性將整個頁面的所有圖片加載完，將大大增加頁面的首屏加載時間。為了解決這種問題，通過前后端配合，使圖片僅在瀏覽器當(dāng)前視窗內(nèi)出現(xiàn)時才加載該圖片，達(dá)到減少首屏圖片請求數(shù)的技術(shù)就被稱為“圖片懶加載”。在網(wǎng)頁源碼中，在img標(biāo)簽中首先會使用一個“偽屬性”（通常使用src2，original......）去存放真正的圖片鏈接而并非是直接存放在src屬性中。當(dāng)圖片出現(xiàn)到頁面的可視化區(qū)域中，會動態(tài)將偽屬性替換成src屬性，完成圖片的加載。

解決方法：通過細(xì)致觀察頁面的結(jié)構(gòu)，發(fā)現(xiàn)圖片的鏈接真正鏈的偽屬性中，一般不在src中，而是src2中，xpath要使用該屬性

示例代碼：

python干貨：5種反扒機(jī)制的解決方法

5 Ajax動態(tài)加載

簡介：從網(wǎng)頁的 url 加載網(wǎng)頁的源代碼之后，會在瀏覽器里執(zhí)行JavaScript程序。這些程序會加載出更多的內(nèi)容，并把這些內(nèi)容傳輸?shù)骄W(wǎng)頁中。這就是為什么有些網(wǎng)頁直接爬它的URL時卻沒有數(shù)據(jù)的原因?，F(xiàn)在這樣的網(wǎng)站也越來越多。
解決方法:使用審查元素分析”請求“對應(yīng)的鏈接(方法：右鍵→審查元素→Network→清空，點擊”加載更多“，出現(xiàn)對應(yīng)的GET鏈接尋找Type為text/html的，點擊，查看get參數(shù)或者復(fù)制Request URL)，循環(huán)過程。如果“請求”之前有頁面，依據(jù)上一步的網(wǎng)址進(jìn)行分析推導(dǎo)第1頁。以此類推，抓取抓Ajax地址的數(shù)據(jù)。對返回的json使用requests中的json進(jìn)行解析，觀察動態(tài)加載的規(guī)律，在請求頭中對規(guī)律進(jìn)行使用

抓包工具推薦:fiddler

到此這篇關(guān)于python反扒機(jī)制的5種解決方法的文章就介紹到這了,更多相關(guān)python反扒機(jī)制內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: