# AWS - 事故通報鏈
# 服務定位簡介
- SNS 通知服務 (發通知)
- OpsCenter 集中管理所有事故紀錄 (開工單)
- Incident Manager 真的在處理事故流程的系統 (管理事故流程)
# 標準完整事故通報鏈
1 | CloudWatch Alarm |
如果題目有說
- 要「記錄事故」
- 要「事後追蹤」
- 要「RCA(根因分析)」
就一定還會加
- OpsCenter(OpsItem)
# 情境一 - 單純發通知
當 EC2 CPU > 90% 時發簡訊給工程師
- CloudWatch Alarm + SNS
# 情境二 - 要「自動成立事故 + 通知 + 追蹤」
當系統發生重大異常時,要自動建立事故事件、通知 on-call 人員,並可追蹤處理狀態
- CloudWatch + EventBridge + Incident Manager + SNS
Incident Manager 關鍵字
- incident
- on-call
- escalation
- response plan
# 情境三 - 要求「集中紀錄所有維運事故」
公司稽核要求:所有系統異常都必須集中記錄、可追蹤負責人
- SSM OpsCenter
關鍵字 SSM OpsCenter
- record
- track
- operations issues
- single dashboard
# 情境四 - 企業級「戰情室模式」
當資料庫中斷時,要:
- 自動通知工程師
- 開 incident
- 提供 SOP
- 指派負責人
- 事後可審計
- Incident Manager + SNS + OpsCenter