欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲框架scrapy下載中間件的編寫方法

 更新時(shí)間:2022年03月25日 09:00:10   作者:S++  
這篇文章主要介紹了python爬蟲框架scrapy下載中間件,在每一個(gè)scrapy工程中都有一個(gè)名為 middlewares.py 的文件,這個(gè)就是中間件文件,本文通過示例代碼給大家介紹的非常詳細(xì),需要的朋友參考下吧

下載中間件

在每一個(gè)scrapy工程中都有一個(gè)名為 middlewares.py 的文件,這個(gè)就是中間件文件
其中下載中間件的類為 XxxDownloaderMiddleware
其中有這么幾個(gè)方法

def process_request(self, request, spider):
return None
def process_response(self, request, response, spider):
return response
def process_exception(self, request, exception, spider):
pass

process_request

這個(gè)方法是用來攔截請(qǐng)求的,我們可以將UA偽裝寫在這個(gè)方法中。
UA池這個(gè)屬性需要自己編寫

def process_request(self, request, spider):
        # UA偽裝,從UA池隨機(jī)一個(gè)
        request.headers['User-Agent'] = random.choice(self.user_agent_list)
        return None

process_response

這個(gè)方法是用來攔截響應(yīng)的,我們可以在這里篡改響應(yīng)數(shù)據(jù)。
如果我們將selenium和scrapy結(jié)合就可以請(qǐng)求那些動(dòng)態(tài)加載的數(shù)據(jù)了。

 def process_response(self, request, response, spider):
        # 瀏覽器對(duì)象
        bro = spider.bro
        # 參數(shù)spider是爬蟲對(duì)象
        # 挑選出指定響應(yīng)對(duì)象進(jìn)行篡改url->request->response
        bro.get(request.url)
        page_text = bro.page_source  # 包含了動(dòng)態(tài)加載的數(shù)據(jù)
        # 針對(duì)定位到的response篡改
        # 實(shí)例化新的響應(yīng)對(duì)象(包含動(dòng)態(tài)加載的數(shù)據(jù))
        response = HtmlResponse(url=bro.current_url, body=page_text, encoding='utf-8', request=request)
        return response

在爬蟲文件中需要預(yù)先創(chuàng)建selenium的瀏覽器對(duì)象

import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import ChromeOptions

class XxxSpider(scrapy.Spider):
    name = 'xxx'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['……']
    def __init__(self):
        service = Service('/Users/soutsukyou/PyCharm_Workspace/網(wǎng)絡(luò)爬蟲/study_selenium/chromedriver')
        chrome_options = ChromeOptions()
        # 規(guī)避檢測(cè)
        chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
        # 實(shí)例化瀏覽器
        self.bro = webdriver.Chrome(service=service, options=chrome_options)

process_exception

這是用來攔截發(fā)生異常的請(qǐng)求對(duì)象,一般我們可以在這里寫代理ip。
兩個(gè)代理ip池屬性需要自己編寫

 def process_exception(self, request, exception, spider):
        # 可以設(shè)置代理ip
        if request.url.split(':')[0] == 'http':
            request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
        if request.url.split(':')[0] == 'https':
            request.meta['proxy'] = 'https://'+random.choice(self.PROXY_https)
        # 重新請(qǐng)求發(fā)送
        return request

其它

我們需要在settings.py中開啟下載中間件才能使其生效

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   'xxx.middlewares.XxxDownloaderMiddleware': 543,
}

到此這篇關(guān)于python爬蟲框架scrapy下載中間件的編寫方法的文章就介紹到這了,更多相關(guān)python scrapy中間件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python提取頁面內(nèi)url列表的方法

    python提取頁面內(nèi)url列表的方法

    這篇文章主要介紹了python提取頁面內(nèi)url列表的方法,涉及Python操作頁面元素的相關(guān)技巧,需要的朋友可以參考下
    2015-05-05
  • Python sklearn庫實(shí)現(xiàn)PCA教程(以鳶尾花分類為例)

    Python sklearn庫實(shí)現(xiàn)PCA教程(以鳶尾花分類為例)

    今天小編就為大家分享一篇Python sklearn庫實(shí)現(xiàn)PCA教程(以鳶尾花分類為例),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • Python 可視化調(diào)色盤繪制

    Python 可視化調(diào)色盤繪制

    這篇文章主要介紹了Python 可視化調(diào)色盤繪制,文章首先通過導(dǎo)入模塊并加載圖片展開全文介紹,具有一定的參考價(jià)值,需要的朋友可以參考一下
    2022-06-06
  • 淺談django orm 優(yōu)化

    淺談django orm 優(yōu)化

    這篇文章主要介紹了淺談django orm 優(yōu)化,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2018-08-08
  • 教你用Python創(chuàng)建微信聊天機(jī)器人

    教你用Python創(chuàng)建微信聊天機(jī)器人

    這篇文章主要手把手教你用Python創(chuàng)建微信聊天機(jī)器人,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-03-03
  • Python+Pygame實(shí)戰(zhàn)之俄羅斯方塊游戲的實(shí)現(xiàn)

    Python+Pygame實(shí)戰(zhàn)之俄羅斯方塊游戲的實(shí)現(xiàn)

    俄羅斯方塊,作為是一款家喻戶曉的游戲,陪伴70、80甚至90后,度過無憂的兒時(shí)歲月,它上手簡(jiǎn)單能自由組合、拼接技巧也很多。本文就來用Python中的Pygame模塊實(shí)現(xiàn)這一經(jīng)典游戲,需要的可以參考一下
    2022-12-12
  • Python中的Decorator裝飾器的使用示例

    Python中的Decorator裝飾器的使用示例

    裝飾器(decorator)在Python框架中扮演著重要角色,是Python中實(shí)現(xiàn)切面編程(AOP)的重要手段,本文將通過簡(jiǎn)單的示例和大家介紹下具體的使用方法,希望對(duì)大家有所幫助
    2022-12-12
  • 使用Python裝飾器在Django框架下去除冗余代碼的教程

    使用Python裝飾器在Django框架下去除冗余代碼的教程

    這篇文章主要介紹了使用Python裝飾器在Django框架下去除冗余代碼的教程,主要是處理JSON代碼的一些冗余,需要的朋友可以參考下
    2015-04-04
  • 使用Python進(jìn)行數(shù)據(jù)可視化實(shí)現(xiàn)引人注目的視覺效果

    使用Python進(jìn)行數(shù)據(jù)可視化實(shí)現(xiàn)引人注目的視覺效果

    這篇文章主要介紹了使用Python進(jìn)行數(shù)據(jù)可視化實(shí)現(xiàn)引人注目的視覺效果,您將了解基本的數(shù)據(jù)可視化概念,以及如何創(chuàng)建各種引人注目的圖表和圖形,從而更好地理解和呈現(xiàn)數(shù)據(jù)
    2023-04-04
  • Python實(shí)用小知識(shí)之對(duì)象間的比較

    Python實(shí)用小知識(shí)之對(duì)象間的比較

    == 和 is 是 Python 中對(duì)象比較常用的兩種方式,簡(jiǎn)單來說,'==' 操作符比較對(duì)象之間的值是否相等,下面這篇文章主要給大家介紹了關(guān)于Python實(shí)用小知識(shí)之對(duì)象間比較的相關(guān)資料,需要的朋友可以參考下
    2021-10-10

最新評(píng)論