# AWS - 事故通報鏈


# 服務定位簡介

  • SNS 通知服務 (發通知)
  • OpsCenter 集中管理所有事故紀錄 (開工單)
  • Incident Manager 真的在處理事故流程的系統 (管理事故流程)

# 標準完整事故通報鏈

1
2
3
4
5
CloudWatch Alarm
→ EventBridge
→ Incident Manager
→ SNS
→ On-call 人員(SMS / Email / Slack)

如果題目有說

  • 要「記錄事故」
  • 要「事後追蹤」
  • 要「RCA(根因分析)」

就一定還會加

  • OpsCenter(OpsItem)

# 情境一 - 單純發通知

當 EC2 CPU > 90% 時發簡訊給工程師

  • CloudWatch Alarm + SNS

# 情境二 - 要「自動成立事故 + 通知 + 追蹤」

當系統發生重大異常時,要自動建立事故事件、通知 on-call 人員,並可追蹤處理狀態

  • CloudWatch + EventBridge + Incident Manager + SNS

Incident Manager 關鍵字

  • incident
  • on-call
  • escalation
  • response plan

# 情境三 - 要求「集中紀錄所有維運事故」

公司稽核要求:所有系統異常都必須集中記錄、可追蹤負責人

  • SSM OpsCenter

關鍵字 SSM OpsCenter

  • record
  • track
  • operations issues
  • single dashboard

# 情境四 - 企業級「戰情室模式」

當資料庫中斷時,要:

  • 自動通知工程師
  • 開 incident
  • 提供 SOP
  • 指派負責人
  • 事後可審計
  • Incident Manager + SNS + OpsCenter