K8s容器的定向調(diào)度與親和性詳解
K8s 集群節(jié)點 CPU 使用率高!內(nèi)存溢出(OOM)!宕機!導致大量微服務癱瘓怎么辦?可能是調(diào)度策略沒做好,看完這篇文章掌握提高集群穩(wěn)定性的管理訣竅。
Kubernetes(K8s)是一個開源的容器編排工具,而容器調(diào)度是其非常重要的特性,所謂的調(diào)度是指將容器(Pod)分配到集群中的節(jié)點上運行的過程。為了更好地控制容器的調(diào)度,K8s 提供了多種調(diào)度策略,其中包括定向調(diào)度和親和性策略。在實際的 K8s 集群維護場景中,合理使用這些調(diào)度策略,對集群的穩(wěn)定性至關(guān)重要。本文將通過分享實踐案例,幫助你更好地理解和使用這些功能。
定向調(diào)度
定向調(diào)度通過 nodeName 和 nodeSelector 來聲明 Pod 期望調(diào)度的目標節(jié)點,這種方式的調(diào)度是強制性的,不管節(jié)點是否存在,是否宕機,都會往聲明的節(jié)點上去調(diào)度,當目標不存在或不可調(diào)度時,將會導致 Pod 無法運行。
nodeName
強制將 Pod 調(diào)度到指定主機名的節(jié)點上,這種方式簡單粗暴,沒有經(jīng)過 Scheduler 的調(diào)度邏輯。
示例:我有一個機器學習的應用,需要調(diào)度到集群中唯一的 GPU 節(jié)點上,可以這樣做。
apiVersion: apps/v1 kind: Deployment metadata: name: athena spec: replicas: 1 selector: matchLabels: app: athena template: metadata: labels: app: athena spec: containers: - name: athena image: athena:2.0.0 nodeName: k8s-node-gpu-1
NodeSelector
強制將 Pod 調(diào)度到指定標簽的節(jié)點上,這種方式通過 Label-selector 機制實現(xiàn),在 Pod 創(chuàng)建之前,會由 Schedule 的 MatchNodeSelector 調(diào)度策略根據(jù) Label 匹配節(jié)點,再將 Pod 調(diào)度到目標節(jié)點上。
示例:我有一個機器學習的應用,需要調(diào)度到集群中帶有 hardware-type:gpu 標簽的節(jié)點上,帶有該標簽的節(jié)點有多臺,可以這樣做。
apiVersion: apps/v1 kind: Deployment metadata: name: athena spec: replicas: 1 selector: matchLabels: app: athena template: metadata: labels: app: athena spec: containers: - name: athena image: athena:2.0.0 nodeSelector: hardware-type: gpu # gpu-type: T4 (允許有多l(xiāng)abel匹配)
定向調(diào)度比較簡單粗暴,那有沒有相對溫和、靈活點的調(diào)度策略呢?當然是有的,接下來讓我們來看看親和性調(diào)度策略。
親和性調(diào)度
親和性調(diào)度(Affinity)在定向調(diào)度的基礎上,通過靈活的節(jié)點親和性(nodeAffinity)、Pod 親和性(podAffinity)、Pod 反親和性(podAntiAffinity)規(guī)則,滿足更多樣化的調(diào)度場景。
nodeAffinity
比 nodeSelector 更加強大和靈活,可以讓 Pod 滿足更多樣化的條件調(diào)度到指定的節(jié)點上,支持“軟性調(diào)度”(PreferredDuringSchedulingIgnoreDuringExecution)和“硬性調(diào)度”(RequiredDuringSchedulingIgnoredDuringExecution)”,硬性調(diào)度比較強硬,不滿足條件則調(diào)度不成功,而軟性調(diào)度相對溫和,屬于傾向性優(yōu)先選擇滿足條件的節(jié)點,并不強求。
讓我們來看兩個示例,加深理解:
示例 1
我有一個機器學習的應用,必須調(diào)度到集群中帶有 hardware-type: gpu,且區(qū)域 kubernetes.io/zone 的值為 cn-shenzhen-1 或 cn-shenzhen-2 標簽的節(jié)點上。我們可以通過親和性的硬性調(diào)度實現(xiàn),具體如下:
apiVersion: apps/v1 kind: Deployment metadata: name: athena spec: replicas: 2 selector: matchLabels: app: athena template: metadata: labels: app: athena spec: containers: - name: athena image: athena:2.0.0 affinity: nodeAffinity: # 硬性調(diào)度,節(jié)點必須滿足所有條件才可以調(diào)度 requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: - matchExpressions: - key: hardware-type # 運算 operator: In values: - gpu - key: kubernetes.io/zone operator: In values: - cn-shenzhen-1 - cn-shenzhen-2
Operator 支持的運算符還有:
Exists(key必須存在,value可以是任意的) DoesNotExist(key不能存在) In(key的value必須在提供的值列表中) NotIn(key的value不能在提供的值列表中) Gt(key的value必須大于提供的值,僅支持整數(shù)) Lt(key的value必須小于提供的值)
示例 2
我有一個機器學習的應用,傾向于調(diào)度到集群中帶有 hardware-type: gpu,且區(qū)域 kubernetes.io/zone 的值為 cn-shenzhen-1 或 cn-shenzhen-2 標簽的節(jié)點上。我們可以通過親和性的軟性調(diào)度實現(xiàn),如果不能滿足條件,他也會嘗試去調(diào)度其他節(jié)點,具體如下:
apiVersion: apps/v1 kind: Deployment metadata: name: athena spec: replicas: 2 selector: matchLabels: app: athena template: metadata: labels: app: athena spec: containers: - name: athena image: athena:2.0.0 affinity: nodeAffinity: preferredDuringSchedulingIgnoredDuringExecution: # 滿足條件的節(jié)點會加分,值支持(1-100),分數(shù)越高,優(yōu)先級越高 # 不加的話,滿足條件的節(jié)點權(quán)重也為0,不能保證其優(yōu)先級。 - weight: 1 preference: matchExpressions: - key: hardware-type # 運算,支持的運算符跟硬性調(diào)度一致 operator: In values: - gpu - key: kubernetes.io/zone operator: In values: - cn-shenzhen-1 - cn-shenzhen-2
- Pod 親和性(podAffinity)和反親和性(podAntiAffinity)
顧名思義,Pod 親和性用來指定哪些 Pod 應該跟哪些 Pod 更加靠近,而 Pod 反親和性通常用來打散 Pod,讓某些 Pod 不在同一節(jié)點或區(qū)域,同樣也有“軟性調(diào)度”(PreferredDuringSchedulingIgnoreDuringExecution)”和“硬性調(diào)度” (RequiredDuringSchedulingIgnoredDuringExecution),接下來我將用一個示例,加深對 Pod 親和性和反親和性的理解:
示例:有兩個微服務 zeus 和 athena 相互調(diào)用比較頻繁,他們都有兩個副本,出于提升效率和可用性考慮,我想將 zeus 和 athena 的副本打散到兩個不同的可用區(qū)(zone),并讓他們的副本必須部署到同一個節(jié)點上,假設 zeus 已經(jīng)部署好了,那 athena 的部署可以這樣實現(xiàn)。
apiVersion: apps/v1 kind: Deployment metadata: name: athena spec: replicas: 2 selector: matchLabels: app: athena template: metadata: labels: app: athena spec: containers: - name: athena image: athena:2.0.0 affinity: # Pod親和性 podAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchLabels: app: zeus # 拓撲鍵,表示在相同主機上調(diào)度 topologyKey: kubernetes.io/hostname # Pod反親和性 podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchLabels: app: athena # 拓撲鍵,表示在不同區(qū)域上調(diào)度 topologyKey: topology.kubernetes.io/zone
總結(jié)
在文章開頭我們提到如何借助調(diào)度策略來提升 K8s 集群的可用性,相信看完全文的小伙伴都可以悟出其中奧妙,我們可以將高計算、高內(nèi)存的 Pod 調(diào)度到指定的節(jié)點,避免影響關(guān)鍵服務運行,另外為了保障微服務的高可用性,我們通常會打散副本到不同的節(jié)點或者可用區(qū)。
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Rainbond對前端項目Vue及React的持續(xù)部署
這篇文章主要為大家介紹了Rainbond對前端項目Vue及React的持續(xù)部署,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-04-04