詳解如何實(shí)現(xiàn)Linux服務(wù)Crash后自動(dòng)重啟
Systemd
Systemd Restart
Systemd 允許你對(duì)服務(wù)進(jìn)行配置,以便在服務(wù)崩潰時(shí)自動(dòng)重啟。
一個(gè)典型的單元文件是這樣的:
[Unit]
Description=Tailscale node agent
After=network-online.target
Wants=tailscale-weekly-update.timer
[Service]
Type=oneshot
ExecStart=/usr/bin/tailscale update -yes
[Install]
WantedBy=multi-user.target
在上面的例子中,如果守護(hù)進(jìn)程崩潰或被殺死,systemd 不會(huì)去管它。
不過(guò),你可以讓 systemd 自動(dòng)重啟守護(hù)進(jìn)程,以防它崩潰或意外被殺掉。為此,你可以在 [Service] 中添加 Restart 選項(xiàng)。典型的示例如下:
[Unit]
Description=Lightweight Kubernetes
Documentation=https://k3s.io
Wants=network-online.target
After=network-online.target
StartLimitIntervalSec=600
StartLimitBurst=5
[Install]
WantedBy=multi-user.target
[Service]
Type=notify
EnvironmentFile=-/etc/systemd/system/k3s.service.env
KillMode=process
Delegate=yes
LimitNOFILE=1048576
LimitNPROC=infinity
LimitCORE=infinity
TasksMax=infinity
TimeoutStartSec=0
Restart=always
RestartSec=5s
ExecStartPre=/bin/sh -xc '! /usr/bin/systemctl is-enabled --quiet nm-cloud-setup.service'
ExecStartPre=-/sbin/modprobe br_netfilter
ExecStartPre=-/sbin/modprobe overlay
ExecStart=/usr/local/bin/k3s \
server \
上述操作會(huì)對(duì)任何導(dǎo)致守護(hù)進(jìn)程停止的情況做出反應(yīng)...只要守護(hù)進(jìn)程停止,systemd 就會(huì)在 5 秒內(nèi)重啟它。
Restart 有 2 個(gè)可選參數(shù):
- always
- on-failure: 即故障時(shí)重啟. 涵蓋了最廣泛的故障情形,如信號(hào)不清和退出代碼不清:
在本例中,[Unit] 部分還有 StartLimitIntervalSec 和 StartLimitBurst 指令。這可以防止故障服務(wù)每 5 秒鐘重啟一次。如果仍然失敗,systemd 將停止嘗試啟動(dòng)服務(wù)。
如果服務(wù)在 600 秒內(nèi) 5 次嘗試重啟均未成功,則應(yīng)進(jìn)入失敗狀態(tài),不再嘗試重啟。這樣就能確保如果服務(wù)真的壞了,systemd 不會(huì)繼續(xù)嘗試重啟它。應(yīng)該人工上去處理了。
如果在守護(hù)進(jìn)程被殺死后詢問(wèn)其狀態(tài),systemd 會(huì)顯示正在activating (auto-restart)。
Systemd OnFailure
重啟一項(xiàng)服務(wù)固然很好,但在某個(gè)單元出現(xiàn)故障時(shí)采取特定行動(dòng)就更好了。也許你使用的軟件有一個(gè)已知的錯(cuò)誤,要求在崩潰時(shí)刪除緩存文件,也許你想啟動(dòng)一個(gè)腳本來(lái)收集日志和系統(tǒng)信息,以便診斷問(wèn)題。Systemd 允許你指定在服務(wù)失敗時(shí)運(yùn)行的單元。
[Unit]
Description=Lightweight Kubernetes
Documentation=https://k3s.io
Wants=network-online.target
After=network-online.target
StartLimitIntervalSec=600
StartLimitBurst=5
OnFailure=k3s-recovery.service
[Install]
WantedBy=multi-user.target
[Service]
Type=notify
EnvironmentFile=-/etc/systemd/system/k3s.service.env
KillMode=process
Delegate=yes
LimitNOFILE=1048576
LimitNPROC=infinity
LimitCORE=infinity
TasksMax=infinity
TimeoutStartSec=0
Restart=on-failure
RestartSec=5s
ExecStartPre=/bin/sh -xc '! /usr/bin/systemctl is-enabled --quiet nm-cloud-setup.service'
ExecStartPre=-/sbin/modprobe br_netfilter
ExecStartPre=-/sbin/modprobe overlay
ExecStart=/usr/local/bin/k3s \
server \
此示例指定 OnFailure=k3s-recovery.service 來(lái)告訴 systemd,如果我的服務(wù)失敗,它就應(yīng)該啟動(dòng) k3s-recovery 單元.
k3s-recovery 單元只是一個(gè)運(yùn)行此腳本的一次性服務(wù)單元:
[Unit]
Description=K3s recovery
[Service]
Type=oneshot
ExecStart=/usr/local/sbin/k3s-recovery.sh
這個(gè)腳本可以做任何事情:執(zhí)行一些手動(dòng)變通方法讓服務(wù)重新運(yùn)行,向監(jiān)控系統(tǒng)發(fā)出警報(bào),或者壓縮一些臨時(shí)日志和應(yīng)用程序狀態(tài)以排除故障。示例如下:
#!/bin/bash
echo 'Attempting to recover!' > /tmp/recovery_info
systemctl stop k3s.service
/usr/local/sbin/k3s-killall.sh
systemctl start k3s.service
Systemd FailureAction reboot
還有一種可能, 重啟治百病! 所以 systemd 內(nèi)置了在單元故障時(shí)觸發(fā)系統(tǒng)重啟的功能。在本例中,當(dāng)單元發(fā)生故障時(shí),系統(tǒng)將優(yōu)雅地重新啟動(dòng):
[Unit]
Description=Lightweight Kubernetes
Documentation=https://k3s.io
Wants=network-online.target
After=network-online.target
StartLimitIntervalSec=600
StartLimitBurst=5
FailureAction=reboot
[Install]
WantedBy=multi-user.target
[Service]
Type=notify
EnvironmentFile=-/etc/systemd/system/k3s.service.env
KillMode=process
Delegate=yes
LimitNOFILE=1048576
LimitNPROC=infinity
LimitCORE=infinity
TasksMax=infinity
TimeoutStartSec=0
Restart=on-failure
RestartSec=5s
ExecStartPre=/bin/sh -xc '! /usr/bin/systemctl is-enabled --quiet nm-cloud-setup.service'
ExecStartPre=-/sbin/modprobe br_netfilter
ExecStartPre=-/sbin/modprobe overlay
ExecStart=/usr/local/bin/k3s \
server \
FailureAction 有多種有效值: none, reboot, reboot-force, reboot-immediate, poweroff, poweroff-force, poweroff-immediate, exit, exit-force, soft-reboot, soft-reboot-force, kexec, kexec-force, halt, halt-force 和 halt-immediate.
總結(jié)
本文介紹了服務(wù)異常時(shí), 自動(dòng)處理故障的一些方式。Systemd 包含強(qiáng)大的功能,可自動(dòng)響應(yīng)以保持服務(wù)運(yùn)行。
到此這篇關(guān)于詳解如何實(shí)現(xiàn)Linux服務(wù)Crash后自動(dòng)重啟的文章就介紹到這了,更多相關(guān)Linux Crash后自動(dòng)重啟內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Linux下安裝MariaDB數(shù)據(jù)庫(kù)問(wèn)題及解決方法(二進(jìn)制版本的安裝)
MariaDB數(shù)據(jù)庫(kù) 分為源代碼版本和二進(jìn)制版本,源代碼版本需要cmake編譯,這里是二進(jìn)制版本的安裝。下面通過(guò)本文給大家介紹Linux下安裝MariaDB數(shù)據(jù)庫(kù)問(wèn)題及解決方法(二進(jìn)制版本的安裝),感興趣的朋友參考下吧2016-11-11Linux之配置路由轉(zhuǎn)發(fā)功能的測(cè)試
這篇文章主要介紹了Linux之配置路由轉(zhuǎn)發(fā)功能的測(cè)試,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-05-05詳解Linux服務(wù)器配置——搭建SVN服務(wù)器
雖然在windows上搭建SVN很簡(jiǎn)單,但是效能卻不高,這當(dāng)然是和linux相比了,本篇文章主要介紹了Linux服務(wù)器配置——搭建SVN服務(wù)器,具有一定的參考價(jià)值,有興趣的可以了解一下。2016-12-12安裝Ubuntu和ssh遠(yuǎn)程連接的設(shè)置方式
文章介紹了在Ubuntu操作系統(tǒng)中進(jìn)行遠(yuǎn)程連接配置的方法,具體步驟包括:安裝并配置SSH服務(wù),設(shè)置靜態(tài)IP地址,配置遠(yuǎn)程桌面服務(wù)(VNC或RDP),以及解決root用戶SSH遠(yuǎn)程登錄的問(wèn)題2025-03-03