python爬蟲框架scrapy下載中間件的編寫方法
下載中間件
在每一個scrapy工程中都有一個名為 middlewares.py 的文件,這個就是中間件文件
其中下載中間件的類為 XxxDownloaderMiddleware
其中有這么幾個方法
def process_request(self, request, spider): return None
def process_response(self, request, response, spider): return response
def process_exception(self, request, exception, spider): pass
process_request
這個方法是用來攔截請求的,我們可以將UA偽裝寫在這個方法中。
UA池這個屬性需要自己編寫
def process_request(self, request, spider):
# UA偽裝,從UA池隨機一個
request.headers['User-Agent'] = random.choice(self.user_agent_list)
return Noneprocess_response
這個方法是用來攔截響應的,我們可以在這里篡改響應數(shù)據(jù)。
如果我們將selenium和scrapy結(jié)合就可以請求那些動態(tài)加載的數(shù)據(jù)了。
def process_response(self, request, response, spider):
# 瀏覽器對象
bro = spider.bro
# 參數(shù)spider是爬蟲對象
# 挑選出指定響應對象進行篡改url->request->response
bro.get(request.url)
page_text = bro.page_source # 包含了動態(tài)加載的數(shù)據(jù)
# 針對定位到的response篡改
# 實例化新的響應對象(包含動態(tài)加載的數(shù)據(jù))
response = HtmlResponse(url=bro.current_url, body=page_text, encoding='utf-8', request=request)
return response在爬蟲文件中需要預先創(chuàng)建selenium的瀏覽器對象
import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import ChromeOptions
class XxxSpider(scrapy.Spider):
name = 'xxx'
# allowed_domains = ['www.xxx.com']
start_urls = ['……']
def __init__(self):
service = Service('/Users/soutsukyou/PyCharm_Workspace/網(wǎng)絡爬蟲/study_selenium/chromedriver')
chrome_options = ChromeOptions()
# 規(guī)避檢測
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 實例化瀏覽器
self.bro = webdriver.Chrome(service=service, options=chrome_options)process_exception
這是用來攔截發(fā)生異常的請求對象,一般我們可以在這里寫代理ip。
兩個代理ip池屬性需要自己編寫
def process_exception(self, request, exception, spider):
# 可以設置代理ip
if request.url.split(':')[0] == 'http':
request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
if request.url.split(':')[0] == 'https':
request.meta['proxy'] = 'https://'+random.choice(self.PROXY_https)
# 重新請求發(fā)送
return request其它
我們需要在settings.py中開啟下載中間件才能使其生效
# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
'xxx.middlewares.XxxDownloaderMiddleware': 543,
}到此這篇關于python爬蟲框架scrapy下載中間件的編寫方法的文章就介紹到這了,更多相關python scrapy中間件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python sklearn庫實現(xiàn)PCA教程(以鳶尾花分類為例)
今天小編就為大家分享一篇Python sklearn庫實現(xiàn)PCA教程(以鳶尾花分類為例),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02
Python+Pygame實戰(zhàn)之俄羅斯方塊游戲的實現(xiàn)
俄羅斯方塊,作為是一款家喻戶曉的游戲,陪伴70、80甚至90后,度過無憂的兒時歲月,它上手簡單能自由組合、拼接技巧也很多。本文就來用Python中的Pygame模塊實現(xiàn)這一經(jīng)典游戲,需要的可以參考一下2022-12-12
使用Python裝飾器在Django框架下去除冗余代碼的教程
這篇文章主要介紹了使用Python裝飾器在Django框架下去除冗余代碼的教程,主要是處理JSON代碼的一些冗余,需要的朋友可以參考下2015-04-04
使用Python進行數(shù)據(jù)可視化實現(xiàn)引人注目的視覺效果
這篇文章主要介紹了使用Python進行數(shù)據(jù)可視化實現(xiàn)引人注目的視覺效果,您將了解基本的數(shù)據(jù)可視化概念,以及如何創(chuàng)建各種引人注目的圖表和圖形,從而更好地理解和呈現(xiàn)數(shù)據(jù)2023-04-04

