快捷導(dǎo)航

Python爬蟲框架scrapy實(shí)現(xiàn)downloader_middleware設(shè)置proxy代理功能示例

更新時(shí)間：2018年08月04日 10:09:29 作者：Charles.L

這篇文章主要介紹了Python爬蟲框架scrapy實(shí)現(xiàn)downloader_middleware設(shè)置proxy代理功能,結(jié)合實(shí)例形式分析了scrapy框架proxy代理設(shè)置技巧與相關(guān)問(wèn)題注意事項(xiàng),需要的朋友可以參考下

本文實(shí)例講述了Python爬蟲框架scrapy實(shí)現(xiàn)downloader_middleware設(shè)置proxy代理功能。分享給大家供大家參考，具體如下：

一、背景：

小編在爬蟲的時(shí)候肯定會(huì)遇到被封殺的情況，昨天爬了一個(gè)網(wǎng)站，剛開始是可以了，在settings的設(shè)置DEFAULT_REQUEST_HEADERS偽裝自己是chrome瀏覽器，剛開始是可以的，緊接著就被對(duì)方服務(wù)器封殺了。

代理：

代理，代理，一直覺得爬去網(wǎng)頁(yè)把爬去速度放慢一點(diǎn)就能基本避免被封殺，雖然可以使用selenium，但是這個(gè)坎必須要過(guò)，scrapy的代理其實(shí)設(shè)置起來(lái)很簡(jiǎn)單。

注意，request.meta['proxy']=代理ip的API

middlewares.py

class HttpbinProxyMiddleware(object):
  def process_request(self, request, spider):
    pro_addr = requests.get('http://127.0.0.1:5000/get').text
    request.meta['proxy'] = 'http://' + pro_addr
    #request.meta['proxy'] = 'http://' + proxy_ip

設(shè)置啟動(dòng)上面我們寫的這個(gè)代理

settings.py

DOWNLOADER_MIDDLEWARES = {
  'httpbin.middlewares.HttpbinProxyMiddleware': 543,
}

spiders

httpbin_test.py

import scrapy
class HttpbinTestSpider(scrapy.Spider):
  name = "httpbin_test"
  allowed_domains = ["httpbin.ort/get"]
  start_urls = ['http://httpbin.org/get']
  def parse(self, response):
    print(response.text)

origin的值其實(shí)就是本地的公網(wǎng)地址，但是因?yàn)槲覀冇昧舜?，這里的ip是美國(guó)的一個(gè)ip

二、那么問(wèn)題來(lái)了，現(xiàn)在有這么一個(gè)場(chǎng)景，如上所述的話，我每個(gè)請(qǐng)求都會(huì)使用代理池里面的代理IP地址，但是有些操作是不需要代理IP地址的，那么怎么才能讓它請(qǐng)求超時(shí)的時(shí)候，再使用代理池的IP地址進(jìn)行重新請(qǐng)求呢？

spider：

1、我們都知道scrapy的基本請(qǐng)求步驟是，首先執(zhí)行父類里面（scrapy.Spider）里面的start_requests方法，

2、然后start_requests方法也是取拿我們?cè)O(shè)置的start_urls變量里面的url地址

3、最后才執(zhí)行make_requests_from_url方法，并只傳入一個(gè)url變量

那么，我們就可以重寫make_requests_from_url方法，從而直接調(diào)用scrapy.Request()方法，我們簡(jiǎn)單的了解一下里面的幾個(gè)參數(shù)：

1、url=url,其實(shí)就是最后start_requests()方法里面拿到的url地址

2、meta這里我們只設(shè)置了一個(gè)參數(shù)，download_timeout:10，作用就是當(dāng)?shù)谝淮伟l(fā)起請(qǐng)求的時(shí)候，等待10秒鐘，如果沒有請(qǐng)求成功的話，就會(huì)直接執(zhí)行download_middleware里面的方法，我們下面介紹。

3、callback回調(diào)函數(shù)，其實(shí)就是本次的本次所有操作完成后執(zhí)行的操作，注意，這里可不是說(shuō)執(zhí)行完上面所有操作后，再執(zhí)行這個(gè)操作，比如說(shuō)請(qǐng)求了一個(gè)url，并且成功了，下面就會(huì)執(zhí)行這個(gè)方法。

4、dont_filter=False，這個(gè)很重要，有人說(shuō)過(guò)不加的話默認(rèn)就是False，但是親測(cè)必須得加，作用就是scrapy默認(rèn)有去重的方法，等于False的話就意味著不參加scrapy的去重操作。親測(cè)，請(qǐng)求一個(gè)頁(yè)面，拿到第一個(gè)頁(yè)面后，抓取想要的操作后，第二頁(yè)就不行了，只有加上它才可以。

import scrapy
class HttpbinTestSpider(scrapy.Spider):
  name = "httpbin_test"
  allowed_domains = ["httpbin.ort/get"]
  start_urls = ['http://httpbin.org/get']
  def make_requests_from_url(self,url):
    self.logger.debug('Try first time')
    return scrapy.Request(url=url,meta={'download_timeout':10},callback=self.parse,dont_filter=False)
  def parse(self, response):
    print(response.text)

middlewares.py

下面就是上面請(qǐng)求10秒后超時(shí)會(huì)執(zhí)行的操作process_exception方法，心細(xì)的同學(xué)會(huì)發(fā)現(xiàn)，我們?cè)趕pider文件里面輸出log的時(shí)候，是直接輸出的，那是因?yàn)閟crapy早都在父類里面給你定義好了，直接應(yīng)用就行，但是在middlewares里面需要自己定義一個(gè)類變量定義，才能使用引用。

class HttpbinProxyMiddleware(object):
  logger = logging.getLogger(__name__)
  # def process_request(self, request, spider):
  #   # pro_addr = requests.get('http://127.0.0.1:5000/get').text
  #   # request.meta['proxy'] = 'http://' + pro_addr
  #   pass
  #
  # def process_response(self, request, response, spider):
  #   # 可以拿到下載完的response內(nèi)容，然后對(duì)下載完的內(nèi)容進(jìn)行修改（修改文本的編碼格式等操作）
  #   pass
  def process_exception(self, request, response, spider):
    self.logger.debug('Try Exception time')
    self.logger.debug('Try second time')
    proxy_addr = requests.get('http://127.0.0.1:5000/get').text
    self.logger.debug(proxy_addr)
    request.meta['proxy'] = 'http://{0}'.format(proxy_addr)

settings.py

這里才是關(guān)鍵，我們需要執(zhí)行middlewares里面的HttpbinProxyMiddleware類下面的方法，這里需要注意的是我取消了下載中間件的retry中間件，因?yàn)閟crapy本身就有自動(dòng)重試的方法，為了試驗(yàn)效果，這里取消了默認(rèn)的重試中間件。

DOWNLOADER_MIDDLEWARES = {
  'httpbin.middlewares.HttpbinProxyMiddleware': 543,
  #設(shè)置不參與scrapy的自動(dòng)重試的動(dòng)作
  'scrapy.downloadermiddlewares.retry.RetryMiddleware':None
}

注意：

上面我訪問(wèn)的url是httpbin.org，這個(gè)網(wǎng)站不用代理也可以打開，這里你可以在不打開FQ工具的時(shí)候，訪問(wèn)google.com，因?yàn)槲易约簩W(xué)習(xí)用的代理地址基本都是國(guó)內(nèi)的地址，所以即使是google也是打不開的。

總結(jié)：

上面我們介紹了兩種scrapy加代理的寫法：

1、第一種是直接每次訪問(wèn)都使用代理IP發(fā)起請(qǐng)求

2、第二種是在不能正常獲取請(qǐng)求結(jié)果的時(shí)候，再使用代理ip。

3、我們學(xué)習(xí)了scrapy中如何打印logging日志，從而簡(jiǎn)單判斷問(wèn)題和執(zhí)行步驟。

小知識(shí)：

['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'httpbin.middlewares.HttpbinProxyMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-11-27 23:36:47 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']

這里我們可以再Terminal下面打印一下，簡(jiǎn)單介紹一下：

1、在scrapy中的中間件里面，對(duì)應(yīng)的中間件后面的數(shù)字越小，執(zhí)行優(yōu)先級(jí)越高。

2、如果你想取消某個(gè)download_middlewares的話就直接如我上面寫的，把它Copy出來(lái)，加個(gè)None，這樣它就不執(zhí)行了。

3、補(bǔ)充，如果你看過(guò)scrapy的基本執(zhí)行流程圖的話，就會(huì)知道scrapy除了下載中間件，還有個(gè)spider中間件，所以用的時(shí)候不要用錯(cuò)了。

D:\項(xiàng)目\小項(xiàng)目\scrapy_day6_httpbin\httpbin>scrapy settings --get=DOWNLOADER_MIDDLEWARES_BASE
{"scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware": 300, "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": 500, "scrapy.downloadermiddlewares.redirect.MetaRefres
hMiddleware": 580, "scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware": 900, "scrapy.downloadermiddlewares.redirect.RedirectMiddleware": 600, "scrapy.downloadermiddlewares.r
obotstxt.RobotsTxtMiddleware": 100, "scrapy.downloadermiddlewares.retry.RetryMiddleware": 550, "scrapy.downloadermiddlewares.cookies.CookiesMiddleware": 700, "scrapy.downloadermiddle
wares.defaultheaders.DefaultHeadersMiddleware": 400, "scrapy.downloadermiddlewares.stats.DownloaderStats": 850, "scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddlewar
e": 590, "scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware": 750, "scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware": 350, "scrapy.downloadermiddlewar
es.ajaxcrawl.AjaxCrawlMiddleware": 560}

更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題：《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。

您可能感興趣的文章: