快捷導(dǎo)航

docker容器管理之Docker Engine詳解

更新時間：2023年08月21日 08:30:35 作者：demo007x

當(dāng)我們運行集群Docker引擎時,管理器節(jié)點是管理集群和存儲集群狀態(tài)的關(guān)鍵組件,在這篇文章中我們將了解manager節(jié)點的一些關(guān)鍵功能很重要,以正確部署和維護(hù)集群,需要的朋友可以參考下

管理和維護(hù)集群的Docker Engine

在集群中操作管理器節(jié)點

集群管理器節(jié)點使用筏raft來管理集群狀態(tài)。你只需要了解raft的一些一般概念，就能管理集群。

管理器節(jié)點的數(shù)量沒有限制。關(guān)于實施多少個manager節(jié)點的決定是性能和容錯之間的權(quán)衡。將管理器節(jié)點添加到集群中會使集群更容錯。然而，額外的管理器節(jié)點會降低寫入性能，因為更多的節(jié)點必須確認(rèn)更新群態(tài)的建議。這意味著更多的網(wǎng)絡(luò)往返流量。

Raft要求大多數(shù)manager（也稱為法定人數(shù)）就群的擬議更新達(dá)成一致，例如節(jié)點添加或刪除。會員操作受到與狀態(tài)復(fù)制相同的約束。

保持manager節(jié)點的數(shù)量

如果集群失去管理者的法定數(shù)量，則集群無法執(zhí)行管理任務(wù)。如果你的群體有多個manager，總是有兩個以上。為了維持法定人數(shù)，必須有大多數(shù)manager人。建議使用奇數(shù)的manager，因為下一個偶數(shù)不會使法定人數(shù)更容易保持。例如，無論您有3個還是4個manager，您仍然只能失去1名manager并保持法定人數(shù)。如果你有5個或6個manager，你仍然只能失去兩個。

即使集群失去了manager的法定人數(shù)，現(xiàn)有工作節(jié)點上的集群任務(wù)也會繼續(xù)運行。但是，群節(jié)點無法添加、更新或刪除，新的或現(xiàn)有的任務(wù)也無法啟動、停止、移動或更新。

如果您確實失去了manager的法定數(shù)量，請參閱從教程①，以了解故障排除步驟。

配置管理器

啟動集群時，我們必須指定--advertise-addr標(biāo)志，以將我們的地址廣播給集群中的其他管理器節(jié)點。由于管理器節(jié)點應(yīng)該是基礎(chǔ)設(shè)施的穩(wěn)定組件，因此我們應(yīng)該使用固定的IP地址作為廣播地址，以防止群在機器重新啟動時變得不穩(wěn)定。

如果整個集群重新啟動，并且每個管理器節(jié)點隨后獲得一個新的IP地址，則任何節(jié)點都無法跟現(xiàn)有管理器通信。因此，當(dāng)節(jié)點試圖在舊的IP地址上相互聯(lián)系時，集群會被阻塞。

動態(tài)IP地址適用于工作節(jié)點。

添加容錯管理器節(jié)點

我們應(yīng)該在集群中保持奇數(shù)的manager，以支持manager節(jié)點故障。擁有奇數(shù)的manager可以確保在網(wǎng)絡(luò)分區(qū)期間，如果網(wǎng)絡(luò)被劃分為兩組，則有更高的機會保留法定人數(shù)來處理請求。如果遇到兩個以上的網(wǎng)絡(luò)分區(qū)，則不能保證保持法定人數(shù)。參考如下：

集群大小	多數(shù)	容錯
1	1	0
2	2	0
3	2	1
4	3	1
5	3	2
6	4	2
7	4	3
8	5	3
9	5	4

例如，在有5個節(jié)點的集群中，如果你失去了3個節(jié)點，你就沒有法定人數(shù)。因此，在恢復(fù)一個不可用的管理器節(jié)點或使用災(zāi)難恢復(fù)命令恢復(fù)集群之前，我們無法添加或刪除節(jié)點。請參閱從災(zāi)難中恢復(fù)②。

雖然可以將集群縮小到單個管理器節(jié)點，但不可能降級最后一個管理器節(jié)點。這可以確保您保持對集群的訪問權(quán)限，并且集群仍然可以處理請求?？s小到單個管理器是一項不安全的操作，不建議這樣做。如果最后一個節(jié)點在降級操作期間意外離開集群，則集群將不可用，直到您重新啟動節(jié)點或使用--force-new-cluster重新啟動。

我們使用使用docker swarm和docker node子系統(tǒng)管理swarm成員。

分發(fā)管理器節(jié)點

除了維護(hù)奇數(shù)的manager節(jié)點外，在放置manager時還要注意數(shù)據(jù)中心拓?fù)?。為了獲得最佳的容錯，將管理器節(jié)點分布在至少3個可用區(qū)域，以支持整套機器的故障或常見的維護(hù)場景。如果在其中任何區(qū)域出現(xiàn)故障，集群應(yīng)保持可用于處理請求和重新平衡工作量的manager節(jié)點的法定人數(shù)。

群管理器節(jié)點	重新分區(qū)（在3個可用區(qū)域）
3	1-1-1
5	2-2-1
7	3-2-2
9	3-3-3

運行僅限管理器的節(jié)點

默認(rèn)情況下，管理器節(jié)點也充當(dāng)工作節(jié)點。這意味著調(diào)度器可以將任務(wù)分配給管理器節(jié)點。對于小型和非關(guān)鍵的集群，只要我們使用CPU和內(nèi)存的資源約束來安排服務(wù)，就將任務(wù)分配給manager的風(fēng)險相對較低。

然而，由于管理器節(jié)點使用Raft共識算法以一致的方式復(fù)制數(shù)據(jù)，它們對資源匱乏很敏感。所以應(yīng)該將集群中的manager與可能阻止集群行動（如集群心跳或領(lǐng)導(dǎo)人選舉）的過程隔離開來。

為了避免干擾管理器節(jié)點操作，我們可以耗盡管理器節(jié)點，使其作為工作節(jié)點不可用：

 docker node update --availability drain <NODE>

當(dāng)耗盡節(jié)點時，調(diào)度器會將節(jié)點上運行的任何任務(wù)重新分配給群中其他可用的工作節(jié)點。它還阻止調(diào)度程序?qū)⑷蝿?wù)分配給節(jié)點。

添加工作節(jié)點進(jìn)行負(fù)載平衡

只要工作節(jié)點與服務(wù)的要求相匹配，復(fù)制的服務(wù)任務(wù)就會隨著時間的推移盡可能均勻地分布在群中。當(dāng)限制服務(wù)僅在特定類型的節(jié)點上運行時，例如具有特定CPU數(shù)量或內(nèi)存量的節(jié)點，不符合這些要求的工作節(jié)點無法運行這些任務(wù)。

監(jiān)測群體健康

我們可以通過查詢docker nodes API 以 JSON格式通過/nodes HTTP端點來監(jiān)視管理節(jié)點的健康狀況。

從命令行運行docker node inspect <id-node>來查詢節(jié)點。例如，要查詢節(jié)點作為管理器的可訪問性：

 docker node inspect manager1 --format "{{ .ManagerStatus.Reachability }}"

要查詢節(jié)點作為接受任務(wù)的工作的狀態(tài)：

 docker node inspect manager1 --format "{{ .Status.State }}"

從這些命令中，我們可以看到manager1既處于reachable作為manager的狀態(tài)，又作為工作ready`。

unreachable的健康狀態(tài)意味著這個特定的管理器節(jié)點無法從其他管理器節(jié)點訪問。在這種情況下，我們需要采取行動來恢復(fù)無法訪問的管理器：

重新啟動守護(hù)進(jìn)程，看看manager是否恢復(fù)可訪問。
重新啟動機器。
如果重新啟動或重新啟動都不起作用，應(yīng)該添加另一個管理器節(jié)點或?qū)orker提升為管理器節(jié)點。您還需要從帶有docker node demote <NODE>和docker node rm <id-node>的管理器設(shè)置中清除失敗的節(jié)點條目。

或者，您還可以從具有docker node ls的管理器節(jié)點獲得群健康概述：

 docker node ls

對管理器節(jié)點進(jìn)行故障排除

永遠(yuǎn)不應(yīng)該通過從另一個節(jié)點復(fù)制raft目錄來重新啟動管理器節(jié)點。數(shù)據(jù)目錄是節(jié)點ID的唯一。節(jié)點只能使用一次節(jié)點ID加入集群。節(jié)點ID空間應(yīng)該是全局唯一的。

要干凈地將管理器節(jié)點重新加入集群：

使用docker node demote <NODE>將節(jié)點降級為worker。
使用docker node rm <NODE>從群中刪除節(jié)點。
使用docker swarm join將節(jié)點重新加入到具有新狀態(tài)的群中。

強行刪除一個節(jié)點

在大多數(shù)情況下，我們應(yīng)該先關(guān)閉節(jié)點，然后再使用docker node rm命令將其從群中移除。如果節(jié)點無法訪問、無響應(yīng)或被破壞，您可以通過傳遞--force標(biāo)志來強制刪除節(jié)點，而無需關(guān)閉它。例如，如果node2被泄露：

$ docker node rm node2
Error response from daemon: rpc error: code =  desc = node node2 is not down and can't be removed
$ docker node rm --force node2
Node node2 removed from swarm

在強制刪除管理器節(jié)點之前，您必須首先將其降級到工作角色。如果您降級或刪除manager，請確保您始終有奇數(shù)的manager節(jié)點。

集群備份

Docker管理器節(jié)點將群狀態(tài)和管理器日志存儲在/var/lib/docker/swarm/目錄中。這些數(shù)據(jù)包括用于加密Raft日志的密鑰。沒有這些文件，我們就無法恢復(fù)集群。

我們可以使用任何管理器備份集群。使用以下程序。

如果集群啟用了自動鎖定，需要解鎖密鑰才能從備份中恢復(fù)集群。如有必要，檢索解鎖密鑰并將其存儲在安全的位置。
在備份數(shù)據(jù)之前，在管理器上停止Docker，這樣在備份期間就不會更改數(shù)據(jù)。可以在manager運行時進(jìn)行備份（“熱”備份），但不建議這樣做，并且在恢復(fù)時您的結(jié)果更難預(yù)測。當(dāng)管理器停機時，其他節(jié)點繼續(xù)生成不屬于此備份一部分的群數(shù)據(jù)。

注意：

一定要保持集群manager的法定人數(shù)。在manager關(guān)閉期間，如果丟失更多節(jié)點，您的集群更容易失去法定人數(shù)。你管理的manager數(shù)量是一種取舍。如果定期刪除manager進(jìn)行備份，請考慮運行五個manager群，這樣就可以在備份運行時失去另一個manager，而不會中斷服務(wù)。
備份整個/var/lib/docker/swarm目錄。
重新啟動管理器。

從備份中恢復(fù)

從備份恢復(fù)

如備份集群中所述備份集群后，請使用以下過程將數(shù)據(jù)恢復(fù)到新集群。

為恢復(fù)的群關(guān)閉目標(biāo)主機上的Docker。
刪除新群上/var/lib/docker/swarm目錄的內(nèi)容。
使用備份的內(nèi)容恢復(fù)/var/lib/docker/swarm目錄。

筆記

新節(jié)點使用與舊節(jié)點相同的磁盤存儲加密密鑰。目前無法更改磁盤存儲加密密鑰。

在啟用自動鎖定的集群的情況下，解鎖密鑰也與舊集群相同，需要解鎖密鑰來恢復(fù)集群。復(fù)制代碼

docker swarm init --force-new-cluster

驗證集群的狀態(tài)是否符合預(yù)期。這可能包括特定于應(yīng)用程序的測試，或者只是檢查docker service ls的輸出，以確保所有預(yù)期服務(wù)都存在。
如果我們使用自動鎖定，需要更新我的密鑰。
添加管理器和工作節(jié)點，使我們的新集群達(dá)到可接受服務(wù)請求 s。
在新集群上恢復(fù)我們之前的備份數(shù)據(jù)。

恢復(fù)管理節(jié)點的數(shù)量

Swarm對故障有彈性，可以從任何數(shù)量的臨時節(jié)點故障（機器重新啟動或重新啟動時崩潰）或其他瞬態(tài)錯誤中恢復(fù)。然而，如果群體失去法定人數(shù)，它就無法自動恢復(fù)。現(xiàn)有工作節(jié)點上的任務(wù)繼續(xù)運行，但無法執(zhí)行管理任務(wù)，包括擴展或更新服務(wù)以及從集群中加入或刪除節(jié)點?；謴?fù)的最佳方法是將丟失的管理器節(jié)點重新聯(lián)機。

在集群manager中，必須始終有法定人數(shù)（大多數(shù)）的manager節(jié)點。例如，在有五名manager的集群中，至少有三名manager必須處于運通信狀態(tài)并互聯(lián)互通。換句話說，集群可以容忍高達(dá)(N-1)/2的永久故障，超過這些故障，涉及集群管理的請求無法處理。這些類型的故障包括數(shù)據(jù)損壞或硬件故障。

如果你失去了manager 的法定人數(shù)，就無法管理集群。如果失去了法定人數(shù)，并且嘗試對集群執(zhí)行任何管理操作，則會發(fā)生錯誤：

Error response from daemon: rpc error: code = 4 desc = context deadline exceeded

從失去法定人數(shù)中恢復(fù)過來的最好方法是讓失敗的節(jié)點重新上線。如果我們無法做到這一點，從此狀態(tài)中恢復(fù)的唯一方法是使用來自管理器節(jié)點的--force-new-cluster操作。這將刪除運行命令的manager以外的所有manager。達(dá)到法定人數(shù)是因為現(xiàn)在只有一位manager。將節(jié)點提升為manager，直到擁有所需的manager人數(shù)。

從要恢復(fù)的節(jié)點，運行：

 docker swarm init --force-new-cluster --advertise-addr node01:2377

當(dāng)使用--force-new-cluster標(biāo)志運行docker swarm init命令時，您運行命令的Docker引擎將成為能夠管理和運行服務(wù)的單節(jié)點群的管理器節(jié)點。manager擁有之前關(guān)于服務(wù)和任務(wù)的所有信息，工作節(jié)點仍然是集群的一部分，服務(wù)仍在運行。您需要添加或重新添加管理器節(jié)點，以實現(xiàn)之前的任務(wù)分配，并確保您有足夠的管理器來保持高可用性并防止失去法定人數(shù)。

讓集群重新負(fù)載均衡

一般來說，我們不需要強迫集群重新平衡其任務(wù)。當(dāng)向群添加新節(jié)點時，或者節(jié)點在一段時間不可用后重新連接到集群時，集群不會自動給空閑節(jié)點提供工作負(fù)載， Docker swarm 就是這么設(shè)計的，如果為了實現(xiàn)平衡，集群定期將任務(wù)轉(zhuǎn)移到不同的節(jié)點，則使用這些任務(wù)的客戶端將被中斷。為了整個集群的平衡，目標(biāo)是避免中斷運行服務(wù)。當(dāng)新任務(wù)開始時，或者當(dāng)具有運行任務(wù)的節(jié)點不可用時，這些任務(wù)將提供給不太繁忙的節(jié)點。目標(biāo)是最終平衡，盡量減少對最終用戶的干擾。

您可以將--force或-f標(biāo)志與docker service update命令一起使用，以強制服務(wù)在可用的工作節(jié)點上重新分配其任務(wù)。這會導(dǎo)致服務(wù)任務(wù)重新啟動?？蛻舳藨?yīng)用程序可能會中斷。如果已配置它，我們的服務(wù)將使用滾動更新。

以上就是docker容器管理之Docker Engine詳解的詳細(xì)內(nèi)容，更多關(guān)于docker容器管理Docker Engine的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: