# PVE WatchDog 看門狗
# 簡介
在維運中系統的可觀測性很重要,我們可以透過 watchdog 監測服務是否還活著,watchdog 可以是硬體也可以是軟體,而在 PVE 中兩種 (作業系統級與硬體物理級) 都有提供,兩種都有提供 自動重啟與定時檢測 的功能
# 優劣比較
# 作業系統級
優點
- 不需硬體 Watchdog 裝置即可支援
- 不需設定即已內建啟用與支援
- 相容與泛用性最好
缺點
- 若作業系統死當到連 Softdog 也死掉,無法自我重啟
- 自我重啟時間較久
# 物理硬體級
優點
- 準確的系統生存狀態判斷
- 可以完全重啟作業系統
- 可以更快速的完成重啟動作
缺點
- 需要硬體支援
- 需要另外設定開啟
# 在 PVE 啟動 Watchdog
進入 PVE Host
1 | nano /etc/default/pve-ha-manager |
即可使用 IPMI WatchDog
# 查看啟動狀態
1 | service watchdog-mux status |
# 進階使用
安裝 ipmi tool
1 | apt-get install ipmitool |
透過 ipmitool 可見資訊
-
Watchdog Timer Is: Started/Running
這個計數器的狀態為 Started/Running 表示正常,運作中。 -
Watchdog Timer Actions: Hard Reset (0x01)
當計數器到達門檻時,要做硬體重新開機的動作。 -
Initial Countdown: 10 sec
表示計數器門檻為 10 秒,達到後觸發 Actions 所定義的動作。
# 參考資料
- [經驗分享] 開啟 Proxmox VE 的 IPMI Watchdog 支援