# AWS - EC2 Instance 狀態檢查


# EC2 Instance Status Check

透過 Instance Status Check 你可以快速判斷 EC2 是否已經偵測到任何可能會防止 instance 執行 app 的問題。EC2 會在每次執行 EC2 Instance Auto Check 用來識別硬體與軟體問題。

Status Check 會每分鐘執行一次並回傳通過或失敗。如果所有檢查都通過,Instance Status 為 OK 其餘為 Impaired。狀態檢查內建於 EC2 中。因此無法停用或刪除


# 狀態檢查類型


# 系統狀態檢查

系統狀態檢查會監控 instance 所在的 AWS 系統。這些檢查會偵測你 instace 需要 AWS 介入修復的基礎問題。當 check fail 可以選擇等待 AWS 來修正問題,也可以自行解決,針對 EBS-backed Instance 你可以自行停止並啟動 instanc,多數情況,這會將它遷移到新主機。對於 Instance Store-backed Instance (Linux-Only) 您可以終止或取代 instance。當暫停時資料都會丟失

  • 網路中斷
  • 電力中斷
  • 實體主機軟體問題
  • 實體主機影響網路的硬體問題

以上檢查失敗會遞增 StatusCheckFailed_System 指標

# 裸機 Instance

如果在裸機 Instance 上從 OS reboot,System Status Check 會暫時會傳失敗狀態,當 instance 可用時,會回傳通過狀態。


# 執行個體狀態檢查

Instance Status Check 會檢查軟體與網路連線,EC2 會將 ARP 請求傳送到到 NIC,偵測是否你需要介入修復。當檢查失敗通常需要自行處理問題

  • 系統狀態檢查失敗
  • 網路或啟動組態不正確
  • 記憶體用盡
  • 檔案系統毀損
  • 核心不相容
  • 在重新啟動期間,執行個體狀態檢查會報告失敗,直到執行個體再次可用為止。

以上檢查失敗會遞增 StatusCheckFialed_Instance 指標

# 裸機 Instance

如果在裸機 Instance 上從 OS reboot,System Status Check 會暫時會傳失敗狀態,當 instance 可用時,會回傳通過狀態。


# 附接的 EBS 狀態檢查

Attached EBS Status Check 可監控附接至執行個體的 Amazon EBS 磁碟區是否可連線且能夠完成 I/O 操作。此 StatusCheckFailed_AttachedEBS 指標是二進位值,如果附接至執行個體的一個或多個 EBS 磁碟區無法完成 I/O 操作,則表示損壞。這些狀態檢查會對運算或 Amazon EBS 基礎設施的潛在問題進行偵測。當連接的 EBS 狀態檢查指標失敗時,您可以等待 AWS 解決問題,也可以採取動作,例如取代受影響的磁碟區或停止和重新啟動執行個體。

  • EBS 磁碟區之下儲存子系統上的硬體或軟體問題
  • 實體主機上會影響 EBS 磁碟區連線的硬體問題
  • 執行個體與 EBS 磁碟區之間的連線問題

以上檢查失敗會遞增 StatusCheckFailed_AttachedEBS 指標


# Reference

  • AWS - Amazon EC2 執行個體的狀態檢查