# AWS - 事故通報鏈

# 服務定位簡介

SNS 通知服務 (發通知)
OpsCenter 集中管理所有事故紀錄 (開工單)
Incident Manager 真的在處理事故流程的系統 (管理事故流程)

# 標準完整事故通報鏈

CloudWatch Alarm
→ EventBridge
→ Incident Manager
→ SNS
→ On-call 人員（SMS / Email / Slack）

如果題目有說

要「記錄事故」
要「事後追蹤」
要「RCA（根因分析）」

就一定還會加

OpsCenter（OpsItem）

# 情境一 - 單純發通知

當 EC2 CPU > 90% 時發簡訊給工程師

CloudWatch Alarm + SNS

# 情境二 - 要「自動成立事故 + 通知 + 追蹤」

當系統發生重大異常時，要自動建立事故事件、通知 on-call 人員，並可追蹤處理狀態

CloudWatch + EventBridge + Incident Manager + SNS

Incident Manager 關鍵字

incident
on-call
escalation
response plan

# 情境三 - 要求「集中紀錄所有維運事故」

公司稽核要求：所有系統異常都必須集中記錄、可追蹤負責人

SSM OpsCenter

關鍵字 SSM OpsCenter

record
track
operations issues
single dashboard

# 情境四 - 企業級「戰情室模式」

當資料庫中斷時，要：

自動通知工程師
開 incident
提供 SOP
指派負責人
事後可審計
Incident Manager + SNS + OpsCenter

AWS Cloud