欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python3爬蟲里關(guān)于Splash負(fù)載均衡配置詳解

 更新時(shí)間:2020年07月10日 14:10:16   作者:愛喝馬黛茶的安東尼  
在本篇文章里小編給大家分享了關(guān)于Python3爬蟲里關(guān)于Splash負(fù)載均衡配置的相關(guān)內(nèi)容,需要的朋友們可以學(xué)習(xí)參考下。

用Splash做頁(yè)面抓取時(shí),如果爬取的量非常大,任務(wù)非常多,用一個(gè)Splash服務(wù)來處理的話,未免壓力太大了,此時(shí)可以考慮搭建一個(gè)負(fù)載均衡器來把壓力分散到各個(gè)服務(wù)器上。這相當(dāng)于多臺(tái)機(jī)器多個(gè)服務(wù)共同參與任務(wù)的處理,可以減小單個(gè)Splash服務(wù)的壓力。

1. 配置Splash服務(wù)

要搭建Splash負(fù)載均衡,首先要有多個(gè)Splash服務(wù)。假如這里在4臺(tái)遠(yuǎn)程主機(jī)的8050端口上都開啟了Splash服務(wù),它們的服務(wù)地址分別為41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050和41.159.117.119:8050,這4個(gè)服務(wù)完全一致,都是通過Docker的Splash鏡像開啟的。訪問其中任何一個(gè)服務(wù)時(shí),都可以使用Splash服務(wù)。

2. 配置負(fù)載均衡

接下來,可以選用任意一臺(tái)帶有公網(wǎng)IP的主機(jī)來配置負(fù)載均衡。首先,在這臺(tái)主機(jī)上裝好Nginx,然后修改Nginx的配置文件nginx.conf,添加如下內(nèi)容:

http {
    upstream splash {
        least_conn;
        server 41.159.27.223:8050;
        server 41.159.27.221:8050;
        server 41.159.27.9:8050;
        server 41.159.117.119:8050;
    }
    server {
        listen 8050;
        location / {
            proxy_pass http://splash;
        }
    }
}

這樣我們通過upstream字段定義了一個(gè)名字叫作splash的服務(wù)集群配置。其中l(wèi)east_conn代表最少鏈接負(fù)載均衡,它適合處理請(qǐng)求處理時(shí)間長(zhǎng)短不一造成服務(wù)器過載的情況。

當(dāng)然,我們也可以不指定配置,具體如下:

upstream splash {
    server 41.159.27.223:8050;
    server 41.159.27.221:8050;
    server 41.159.27.9:8050;
    server 41.159.117.119:8050;
}

這樣默認(rèn)以輪詢策略實(shí)現(xiàn)負(fù)載均衡,每個(gè)服務(wù)器的壓力相同。此策略適合服務(wù)器配置相當(dāng)、無狀態(tài)且短平快的服務(wù)使用。

另外,我們還可以指定權(quán)重,配置如下:

upstream splash {
    server 41.159.27.223:8050 weight=4;
    server 41.159.27.221:8050 weight=2;
    server 41.159.27.9:8050 weight=2;
    server 41.159.117.119:8050 weight=1;
}

這里weight參數(shù)指定各個(gè)服務(wù)的權(quán)重,權(quán)重越高,分配到處理的請(qǐng)求越多。假如不同的服務(wù)器配置差別比較大的話,可以使用此種配置。

最后,還有一種IP散列負(fù)載均衡,配置如下:

upstream splash {
    ip_hash;
    server 41.159.27.223:8050;
    server 41.159.27.221:8050;
    server 41.159.27.9:8050;
    server 41.159.117.119:8050;
}

服務(wù)器根據(jù)請(qǐng)求客戶端的IP地址進(jìn)行散列計(jì)算,確保使用同一個(gè)服務(wù)器響應(yīng)請(qǐng)求,這種策略適合有狀態(tài)的服務(wù),比如用戶登錄后訪問某個(gè)頁(yè)面的情形。對(duì)于Splash來說,不需要應(yīng)用此設(shè)置。

我們可以根據(jù)不同的情形選用不同的配置,配置完成后重啟一下Nginx服務(wù):

sudo nginx -s reload

這樣直接訪問Nginx所在服務(wù)器的8050端口,即可實(shí)現(xiàn)負(fù)載均衡了。

3. 配置認(rèn)證

現(xiàn)在Splash是可以公開訪問的,如果不想讓其公開訪問,還可以配置認(rèn)證,這仍然借助于Nginx。可以在server的location字段中添加auth_basic和auth_basic_user_file字段,具體配置如下:

http {
    upstream splash {
        least_conn;
        server 41.159.27.223:8050;
        server 41.159.27.221:8050;
        server 41.159.27.9:8050;
        server 41.159.117.119:8050;
    }
    server {
        listen 8050;
        location / {
            proxy_pass http://splash;
            auth_basic "Restricted";
            auth_basic_user_file /etc/nginx/conf.d/.htpasswd;
        }
    }
}

這里使用的用戶名和密碼配置放置在/etc/nginx/conf.d目錄下,我們需要使用htpasswd命令創(chuàng)建。例如,創(chuàng)建一個(gè)用戶名為admin的文件,相關(guān)命令如下:

htpasswd -c .htpasswd admin

接下來就會(huì)提示我們輸入密碼,輸入兩次之后,就會(huì)生成密碼文件,其內(nèi)容如下:

cat .htpasswd 
admin:5ZBxQr0rCqwbc

配置完成后,重啟一下Nginx服務(wù):

sudo nginx -s reload

這樣訪問認(rèn)證就成功配置好了。

4. 測(cè)試

最后,我們可以用代碼來測(cè)試一下負(fù)載均衡的配置,看看到底是不是每次請(qǐng)求會(huì)切換IP。利用http://httpbin.org/get測(cè)試即可,實(shí)現(xiàn)代碼如下:

import requests
from urllib.parse import quote
import re
lua = '''
function main(splash, args)
  local treat = require("treat")
  local response = splash:http_get("http://httpbin.org/get")
  return treat.as_string(response.body)
end
'''
url = 'http://splash:8050/execute?lua_source=' + quote(lua)
response = requests.get(url, auth=('admin', 'admin'))
ip = re.search('(\d+\.\d+\.\d+\.\d+)', response.text).group(1)
print(ip)

這里URL中的splash字符串請(qǐng)自行替換成自己的Nginx服務(wù)器IP。這里我修改了Hosts,設(shè)置了splash為Nginx服務(wù)器IP。

多次運(yùn)行代碼之后,可以發(fā)現(xiàn)每次請(qǐng)求的IP都會(huì)變化,比如第一次的結(jié)果:

41.159.27.223

第二次的結(jié)果:

41.159.27.9

這就說明負(fù)載均衡已經(jīng)成功實(shí)現(xiàn)了。

本節(jié)中,我們成功實(shí)現(xiàn)了負(fù)載均衡的配置。配置負(fù)載均衡后,可以多個(gè)Splash服務(wù)共同合作,減輕單個(gè)服務(wù)的負(fù)載,這還是比較有用的。

到此這篇關(guān)于Python3爬蟲里關(guān)于Splash負(fù)載均衡配置詳解的文章就介紹到這了,更多相關(guān)Python3 Splash負(fù)載均衡配置內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python如何發(fā)布程序的詳細(xì)教程

    Python如何發(fā)布程序的詳細(xì)教程

    Python是一種面向?qū)ο蟮慕忉屝陀?jì)算機(jī)程序設(shè)計(jì)語(yǔ)言,現(xiàn)在很多人都在使用,尤其是其跨平臺(tái)特性及自然語(yǔ)言屬性,獲得很多人的鐘情,那么如何把Python程序打包為Windows系統(tǒng)中的exe可執(zhí)行程序呢
    2018-10-10
  • python+splinter實(shí)現(xiàn)12306網(wǎng)站刷票并自動(dòng)購(gòu)票流程

    python+splinter實(shí)現(xiàn)12306網(wǎng)站刷票并自動(dòng)購(gòu)票流程

    這篇文章主要為大家詳細(xì)介紹了python+splinter實(shí)現(xiàn)12306網(wǎng)站刷票并自動(dòng)購(gòu)票流程,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-09-09
  • python實(shí)現(xiàn)簡(jiǎn)單名片管理系統(tǒng)

    python實(shí)現(xiàn)簡(jiǎn)單名片管理系統(tǒng)

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)簡(jiǎn)單名片管理系統(tǒng),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-11-11
  • python pandas dataframe 行列選擇,切片操作方法

    python pandas dataframe 行列選擇,切片操作方法

    下面小編就為大家分享一篇python pandas dataframe 行列選擇,切片操作方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • python使用opencv實(shí)現(xiàn)馬賽克效果示例

    python使用opencv實(shí)現(xiàn)馬賽克效果示例

    這篇文章主要介紹了python使用opencv實(shí)現(xiàn)馬賽克效果,結(jié)合實(shí)例形式分析了Python使用cv2模塊操作圖片實(shí)現(xiàn)馬賽克效果的相關(guān)技巧,需要的朋友可以參考下
    2019-09-09
  • python中判斷類型函數(shù)isinstance()示例詳解

    python中判斷類型函數(shù)isinstance()示例詳解

    isinstance()函數(shù)是Python的內(nèi)置函數(shù),用于判斷一個(gè)變量是否是某個(gè)類型或者是該類型的子類的實(shí)例,在Python中,所有類都繼承自object,所以任何實(shí)例都會(huì)是object的實(shí)例,本文給大家介紹python中判斷類型函數(shù)isinstance(),感興趣的朋友一起看看吧
    2024-10-10
  • 極簡(jiǎn)Python庫(kù)CherryPy構(gòu)建高性能Web應(yīng)用實(shí)例探索

    極簡(jiǎn)Python庫(kù)CherryPy構(gòu)建高性能Web應(yīng)用實(shí)例探索

    今天為大家介紹的是 CherryPy,它是一個(gè)極簡(jiǎn)、穩(wěn)定且功能強(qiáng)大的Web框架,可以幫助開發(fā)者快速構(gòu)建高性能的 Web 應(yīng)用程序,使用 CherryPy,你可以輕松地創(chuàng)建RESTful API、靜態(tài)網(wǎng)站、異步任務(wù)和 WebSocket 等應(yīng)用
    2024-01-01
  • Python實(shí)現(xiàn)讀取HTML表格 pd.read_html()

    Python實(shí)現(xiàn)讀取HTML表格 pd.read_html()

    這篇文章主要介紹了Python實(shí)現(xiàn)讀取HTML表格 pd.read_html(),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-07-07
  • Python 如何限制輸出日志的大小

    Python 如何限制輸出日志的大小

    這篇文章主要介紹了Python 限制輸出日志的大小方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • Python機(jī)器學(xué)習(xí)多層感知機(jī)原理解析

    Python機(jī)器學(xué)習(xí)多層感知機(jī)原理解析

    最簡(jiǎn)單的深度網(wǎng)絡(luò)稱為多層感知機(jī),它們由多層神經(jīng)元組成,每一層都與下面一層(從中接收輸入)和上面一層(反過來影響當(dāng)前層的神經(jīng)元)完全相連
    2021-10-10

最新評(píng)論