詳解如何實現(xiàn)Linux服務(wù)Crash后自動重啟
Systemd
Systemd Restart
Systemd 允許你對服務(wù)進行配置,以便在服務(wù)崩潰時自動重啟。
一個典型的單元文件是這樣的:
[Unit]
Description=Tailscale node agent
After=network-online.target
Wants=tailscale-weekly-update.timer
[Service]
Type=oneshot
ExecStart=/usr/bin/tailscale update -yes
[Install]
WantedBy=multi-user.target
在上面的例子中,如果守護進程崩潰或被殺死,systemd 不會去管它。
不過,你可以讓 systemd 自動重啟守護進程,以防它崩潰或意外被殺掉。為此,你可以在 [Service] 中添加 Restart 選項。典型的示例如下:
[Unit]
Description=Lightweight Kubernetes
Documentation=https://k3s.io
Wants=network-online.target
After=network-online.target
StartLimitIntervalSec=600
StartLimitBurst=5
[Install]
WantedBy=multi-user.target
[Service]
Type=notify
EnvironmentFile=-/etc/systemd/system/k3s.service.env
KillMode=process
Delegate=yes
LimitNOFILE=1048576
LimitNPROC=infinity
LimitCORE=infinity
TasksMax=infinity
TimeoutStartSec=0
Restart=always
RestartSec=5s
ExecStartPre=/bin/sh -xc '! /usr/bin/systemctl is-enabled --quiet nm-cloud-setup.service'
ExecStartPre=-/sbin/modprobe br_netfilter
ExecStartPre=-/sbin/modprobe overlay
ExecStart=/usr/local/bin/k3s \
server \
上述操作會對任何導(dǎo)致守護進程停止的情況做出反應(yīng)...只要守護進程停止,systemd 就會在 5 秒內(nèi)重啟它。
Restart 有 2 個可選參數(shù):
- always
- on-failure: 即故障時重啟. 涵蓋了最廣泛的故障情形,如信號不清和退出代碼不清:
在本例中,[Unit] 部分還有 StartLimitIntervalSec 和 StartLimitBurst 指令。這可以防止故障服務(wù)每 5 秒鐘重啟一次。如果仍然失敗,systemd 將停止嘗試啟動服務(wù)。
如果服務(wù)在 600 秒內(nèi) 5 次嘗試重啟均未成功,則應(yīng)進入失敗狀態(tài),不再嘗試重啟。這樣就能確保如果服務(wù)真的壞了,systemd 不會繼續(xù)嘗試重啟它。應(yīng)該人工上去處理了。
如果在守護進程被殺死后詢問其狀態(tài),systemd 會顯示正在activating (auto-restart)。
Systemd OnFailure
重啟一項服務(wù)固然很好,但在某個單元出現(xiàn)故障時采取特定行動就更好了。也許你使用的軟件有一個已知的錯誤,要求在崩潰時刪除緩存文件,也許你想啟動一個腳本來收集日志和系統(tǒng)信息,以便診斷問題。Systemd 允許你指定在服務(wù)失敗時運行的單元。
[Unit]
Description=Lightweight Kubernetes
Documentation=https://k3s.io
Wants=network-online.target
After=network-online.target
StartLimitIntervalSec=600
StartLimitBurst=5
OnFailure=k3s-recovery.service
[Install]
WantedBy=multi-user.target
[Service]
Type=notify
EnvironmentFile=-/etc/systemd/system/k3s.service.env
KillMode=process
Delegate=yes
LimitNOFILE=1048576
LimitNPROC=infinity
LimitCORE=infinity
TasksMax=infinity
TimeoutStartSec=0
Restart=on-failure
RestartSec=5s
ExecStartPre=/bin/sh -xc '! /usr/bin/systemctl is-enabled --quiet nm-cloud-setup.service'
ExecStartPre=-/sbin/modprobe br_netfilter
ExecStartPre=-/sbin/modprobe overlay
ExecStart=/usr/local/bin/k3s \
server \
此示例指定 OnFailure=k3s-recovery.service 來告訴 systemd,如果我的服務(wù)失敗,它就應(yīng)該啟動 k3s-recovery 單元.
k3s-recovery 單元只是一個運行此腳本的一次性服務(wù)單元:
[Unit]
Description=K3s recovery
[Service]
Type=oneshot
ExecStart=/usr/local/sbin/k3s-recovery.sh
這個腳本可以做任何事情:執(zhí)行一些手動變通方法讓服務(wù)重新運行,向監(jiān)控系統(tǒng)發(fā)出警報,或者壓縮一些臨時日志和應(yīng)用程序狀態(tài)以排除故障。示例如下:
#!/bin/bash
echo 'Attempting to recover!' > /tmp/recovery_info
systemctl stop k3s.service
/usr/local/sbin/k3s-killall.sh
systemctl start k3s.service
Systemd FailureAction reboot
還有一種可能, 重啟治百病! 所以 systemd 內(nèi)置了在單元故障時觸發(fā)系統(tǒng)重啟的功能。在本例中,當(dāng)單元發(fā)生故障時,系統(tǒng)將優(yōu)雅地重新啟動:
[Unit]
Description=Lightweight Kubernetes
Documentation=https://k3s.io
Wants=network-online.target
After=network-online.target
StartLimitIntervalSec=600
StartLimitBurst=5
FailureAction=reboot
[Install]
WantedBy=multi-user.target
[Service]
Type=notify
EnvironmentFile=-/etc/systemd/system/k3s.service.env
KillMode=process
Delegate=yes
LimitNOFILE=1048576
LimitNPROC=infinity
LimitCORE=infinity
TasksMax=infinity
TimeoutStartSec=0
Restart=on-failure
RestartSec=5s
ExecStartPre=/bin/sh -xc '! /usr/bin/systemctl is-enabled --quiet nm-cloud-setup.service'
ExecStartPre=-/sbin/modprobe br_netfilter
ExecStartPre=-/sbin/modprobe overlay
ExecStart=/usr/local/bin/k3s \
server \
FailureAction 有多種有效值: none, reboot, reboot-force, reboot-immediate, poweroff, poweroff-force, poweroff-immediate, exit, exit-force, soft-reboot, soft-reboot-force, kexec, kexec-force, halt, halt-force 和 halt-immediate.
總結(jié)
本文介紹了服務(wù)異常時, 自動處理故障的一些方式。Systemd 包含強大的功能,可自動響應(yīng)以保持服務(wù)運行。
到此這篇關(guān)于詳解如何實現(xiàn)Linux服務(wù)Crash后自動重啟的文章就介紹到這了,更多相關(guān)Linux Crash后自動重啟內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Linux下安裝MariaDB數(shù)據(jù)庫問題及解決方法(二進制版本的安裝)
MariaDB數(shù)據(jù)庫 分為源代碼版本和二進制版本,源代碼版本需要cmake編譯,這里是二進制版本的安裝。下面通過本文給大家介紹Linux下安裝MariaDB數(shù)據(jù)庫問題及解決方法(二進制版本的安裝),感興趣的朋友參考下吧2016-11-11詳解Linux服務(wù)器配置——搭建SVN服務(wù)器
雖然在windows上搭建SVN很簡單,但是效能卻不高,這當(dāng)然是和linux相比了,本篇文章主要介紹了Linux服務(wù)器配置——搭建SVN服務(wù)器,具有一定的參考價值,有興趣的可以了解一下。2016-12-12