欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲框架scrapy實(shí)現(xiàn)downloader_middleware設(shè)置proxy代理功能示例

 更新時(shí)間:2018年08月04日 10:09:29   作者:Charles.L  
這篇文章主要介紹了Python爬蟲框架scrapy實(shí)現(xiàn)downloader_middleware設(shè)置proxy代理功能,結(jié)合實(shí)例形式分析了scrapy框架proxy代理設(shè)置技巧與相關(guān)問題注意事項(xiàng),需要的朋友可以參考下

本文實(shí)例講述了Python爬蟲框架scrapy實(shí)現(xiàn)downloader_middleware設(shè)置proxy代理功能。分享給大家供大家參考,具體如下:

一、背景:

小編在爬蟲的時(shí)候肯定會遇到被封殺的情況,昨天爬了一個(gè)網(wǎng)站,剛開始是可以了,在settings的設(shè)置DEFAULT_REQUEST_HEADERS偽裝自己是chrome瀏覽器,剛開始是可以的,緊接著就被對方服務(wù)器封殺了。

代理:

代理,代理,一直覺得爬去網(wǎng)頁把爬去速度放慢一點(diǎn)就能基本避免被封殺,雖然可以使用selenium,但是這個(gè)坎必須要過,scrapy的代理其實(shí)設(shè)置起來很簡單。

注意,request.meta['proxy']=代理ip的API

middlewares.py

class HttpbinProxyMiddleware(object):
  def process_request(self, request, spider):
    pro_addr = requests.get('http://127.0.0.1:5000/get').text
    request.meta['proxy'] = 'http://' + pro_addr
    #request.meta['proxy'] = 'http://' + proxy_ip

設(shè)置啟動(dòng)上面我們寫的這個(gè)代理

settings.py

DOWNLOADER_MIDDLEWARES = {
  'httpbin.middlewares.HttpbinProxyMiddleware': 543,
}

spiders

httpbin_test.py

import scrapy
class HttpbinTestSpider(scrapy.Spider):
  name = "httpbin_test"
  allowed_domains = ["httpbin.ort/get"]
  start_urls = ['http://httpbin.org/get']
  def parse(self, response):
    print(response.text)

origin的值其實(shí)就是本地的公網(wǎng)地址,但是因?yàn)槲覀冇昧舜?,這里的ip是美國的一個(gè)ip

二、那么問題來了,現(xiàn)在有這么一個(gè)場景,如上所述的話,我每個(gè)請求都會使用代理池里面的代理IP地址,但是有些操作是不需要代理IP地址的,那么怎么才能讓它請求超時(shí)的時(shí)候,再使用代理池的IP地址進(jìn)行重新請求呢?

spider:

1、我們都知道scrapy的基本請求步驟是,首先執(zhí)行父類里面(scrapy.Spider)里面的start_requests方法,

2、然后start_requests方法也是取拿我們設(shè)置的start_urls變量里面的url地址

3、最后才執(zhí)行make_requests_from_url方法,并只傳入一個(gè)url變量

那么,我們就可以重寫make_requests_from_url方法,從而直接調(diào)用scrapy.Request()方法,我們簡單的了解一下里面的幾個(gè)參數(shù):

1、url=url,其實(shí)就是最后start_requests()方法里面拿到的url地址

2、meta這里我們只設(shè)置了一個(gè)參數(shù),download_timeout:10,作用就是當(dāng)?shù)谝淮伟l(fā)起請求的時(shí)候,等待10秒鐘,如果沒有請求成功的話,就會直接執(zhí)行download_middleware里面的方法,我們下面介紹。

3、callback回調(diào)函數(shù),其實(shí)就是本次的本次所有操作完成后執(zhí)行的操作,注意,這里可不是說執(zhí)行完上面所有操作后,再執(zhí)行這個(gè)操作,比如說請求了一個(gè)url,并且成功了,下面就會執(zhí)行這個(gè)方法。

4、dont_filter=False,這個(gè)很重要,有人說過不加的話默認(rèn)就是False,但是親測必須得加,作用就是scrapy默認(rèn)有去重的方法,等于False的話就意味著不參加scrapy的去重操作。親測,請求一個(gè)頁面,拿到第一個(gè)頁面后,抓取想要的操作后,第二頁就不行了,只有加上它才可以。

import scrapy
class HttpbinTestSpider(scrapy.Spider):
  name = "httpbin_test"
  allowed_domains = ["httpbin.ort/get"]
  start_urls = ['http://httpbin.org/get']
  def make_requests_from_url(self,url):
    self.logger.debug('Try first time')
    return scrapy.Request(url=url,meta={'download_timeout':10},callback=self.parse,dont_filter=False)
  def parse(self, response):
    print(response.text)

middlewares.py

下面就是上面請求10秒后超時(shí)會執(zhí)行的操作process_exception方法,心細(xì)的同學(xué)會發(fā)現(xiàn),我們在spider文件里面輸出log的時(shí)候,是直接輸出的,那是因?yàn)閟crapy早都在父類里面給你定義好了,直接應(yīng)用就行,但是在middlewares里面需要自己定義一個(gè)類變量定義,才能使用引用。

class HttpbinProxyMiddleware(object):
  logger = logging.getLogger(__name__)
  # def process_request(self, request, spider):
  #   # pro_addr = requests.get('http://127.0.0.1:5000/get').text
  #   # request.meta['proxy'] = 'http://' + pro_addr
  #   pass
  #
  # def process_response(self, request, response, spider):
  #   # 可以拿到下載完的response內(nèi)容,然后對下載完的內(nèi)容進(jìn)行修改(修改文本的編碼格式等操作)
  #   pass
  def process_exception(self, request, response, spider):
    self.logger.debug('Try Exception time')
    self.logger.debug('Try second time')
    proxy_addr = requests.get('http://127.0.0.1:5000/get').text
    self.logger.debug(proxy_addr)
    request.meta['proxy'] = 'http://{0}'.format(proxy_addr)

settings.py

這里才是關(guān)鍵,我們需要執(zhí)行middlewares里面的HttpbinProxyMiddleware類下面的方法,這里需要注意的是我取消了下載中間件的retry中間件,因?yàn)閟crapy本身就有自動(dòng)重試的方法,為了試驗(yàn)效果,這里取消了默認(rèn)的重試中間件。

DOWNLOADER_MIDDLEWARES = {
  'httpbin.middlewares.HttpbinProxyMiddleware': 543,
  #設(shè)置不參與scrapy的自動(dòng)重試的動(dòng)作
  'scrapy.downloadermiddlewares.retry.RetryMiddleware':None
}

注意:

上面我訪問的url是httpbin.org,這個(gè)網(wǎng)站不用代理也可以打開,這里你可以在不打開FQ工具的時(shí)候,訪問google.com,因?yàn)槲易约簩W(xué)習(xí)用的代理地址基本都是國內(nèi)的地址,所以即使是google也是打不開的。

總結(jié):

上面我們介紹了兩種scrapy加代理的寫法:

1、第一種是直接每次訪問都使用代理IP發(fā)起請求

2、第二種是在不能正常獲取請求結(jié)果的時(shí)候,再使用代理ip。

3、我們學(xué)習(xí)了scrapy中如何打印logging日志,從而簡單判斷問題和執(zhí)行步驟。

小知識:

['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'httpbin.middlewares.HttpbinProxyMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-11-27 23:36:47 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']

這里我們可以再Terminal下面打印一下,簡單介紹一下:

1、在scrapy中的中間件里面,對應(yīng)的中間件后面的數(shù)字越小,執(zhí)行優(yōu)先級越高。

2、如果你想取消某個(gè)download_middlewares的話就直接如我上面寫的,把它Copy出來,加個(gè)None,這樣它就不執(zhí)行了。

3、補(bǔ)充,如果你看過scrapy的基本執(zhí)行流程圖的話,就會知道scrapy除了下載中間件,還有個(gè)spider中間件,所以用的時(shí)候不要用錯(cuò)了。

D:\項(xiàng)目\小項(xiàng)目\scrapy_day6_httpbin\httpbin>scrapy settings --get=DOWNLOADER_MIDDLEWARES_BASE
{"scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware": 300, "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": 500, "scrapy.downloadermiddlewares.redirect.MetaRefres
hMiddleware": 580, "scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware": 900, "scrapy.downloadermiddlewares.redirect.RedirectMiddleware": 600, "scrapy.downloadermiddlewares.r
obotstxt.RobotsTxtMiddleware": 100, "scrapy.downloadermiddlewares.retry.RetryMiddleware": 550, "scrapy.downloadermiddlewares.cookies.CookiesMiddleware": 700, "scrapy.downloadermiddle
wares.defaultheaders.DefaultHeadersMiddleware": 400, "scrapy.downloadermiddlewares.stats.DownloaderStats": 850, "scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddlewar
e": 590, "scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware": 750, "scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware": 350, "scrapy.downloadermiddlewar
es.ajaxcrawl.AjaxCrawlMiddleware": 560}

更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總

希望本文所述對大家Python程序設(shè)計(jì)有所幫助。

相關(guān)文章

  • python實(shí)現(xiàn)字符串和數(shù)字拼接

    python實(shí)現(xiàn)字符串和數(shù)字拼接

    今天小編就為大家分享一篇python實(shí)現(xiàn)字符串和數(shù)字拼接,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-03-03
  • Python開發(fā)之射擊闖關(guān)游戲的實(shí)現(xiàn)

    Python開發(fā)之射擊闖關(guān)游戲的實(shí)現(xiàn)

    這篇文章主要為大家詳細(xì)介紹了如何利用Python實(shí)現(xiàn)射擊闖關(guān)游戲,文中的示例代碼講解詳細(xì),對我們學(xué)習(xí)Python有一定的幫助,感興趣的小伙伴可以了解一下
    2023-01-01
  • python讀取ini配置文件過程示范

    python讀取ini配置文件過程示范

    這篇文章主要介紹了python讀取ini配置文件過程示范,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-12-12
  • python操作XML格式文件的一些常見方法

    python操作XML格式文件的一些常見方法

    最近有同學(xué)詢問如何利用Python處理xml文件,特此整理一篇比較簡潔的操作手冊,下面這篇文章主要給大家介紹了關(guān)于python操作XML格式文件的一些常見方法,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-07-07
  • python: 判斷tuple、list、dict是否為空的方法

    python: 判斷tuple、list、dict是否為空的方法

    今天小編就為大家分享一篇python: 判斷tuple、list、dict是否為空的方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • python模塊之subprocess模塊級方法的使用

    python模塊之subprocess模塊級方法的使用

    這篇文章主要介紹了python模塊之subprocess模塊級方法的使用,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2019-03-03
  • Python基礎(chǔ)知識+結(jié)構(gòu)+數(shù)據(jù)類型

    Python基礎(chǔ)知識+結(jié)構(gòu)+數(shù)據(jù)類型

    這篇文章主要介紹了Python基礎(chǔ)知識+結(jié)構(gòu)+數(shù)據(jù)類型,文章基于python基礎(chǔ)知識圍繞主題展開詳細(xì)內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下
    2022-05-05
  • Matplotlib繪圖基礎(chǔ)之畫布詳解

    Matplotlib繪圖基礎(chǔ)之畫布詳解

    Matplotlib?庫是一個(gè)用于數(shù)據(jù)可視化和繪圖的?Python?庫,這篇文章主要為大家介紹了下Matplotlib繪制的圖形中的第一個(gè)重要的元素--畫布,感興趣的可以了解下
    2023-07-07
  • tensorflow學(xué)習(xí)教程之文本分類詳析

    tensorflow學(xué)習(xí)教程之文本分類詳析

    初學(xué)tensorflow,借鑒了很多別人的經(jīng)驗(yàn),參考博客對評論分類(感謝博主的一系列好文),本人也嘗試著實(shí)現(xiàn)了對文本數(shù)據(jù)的分類,下面這篇文章主要給大家介紹了關(guān)于tensorflow學(xué)習(xí)教程之文本分類的相關(guān)資料,需要的朋友可以參考下
    2018-08-08
  • Python圖片縮放cv2.resize()圖文詳解

    Python圖片縮放cv2.resize()圖文詳解

    這篇文章主要給大家介紹了關(guān)于Python圖片縮放cv2.resize()的相關(guān)資料, resize是opencv庫中的一個(gè)函數(shù),主要起到對圖片進(jìn)行縮放的作用,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2023-10-10

最新評論