skills/sre-incident-postmortem/SKILL.md
事故事後分析(Postmortem)完整流程。協調 7 個執行階段:資訊收集 → 時間軸重建 → 根因分析 → 影響評估 → 改善規劃 → 報告審查 → 整合報告,最終產出完整的 Postmortem 報告。適用於「寫事故報告」、「post-incident 分析」、「RCA 報告」、「事故時間軸整理」、「建立改善措施」等請求。注意:即時 Incident Response(on-call)、監控系統設定、告警配置不在此技能範圍內。
npx skillsauth add vincent119/ai-rules-kit sre-incident-postmortemInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
協調完整的 Postmortem 分析流程:資訊收集 → 時間軸重建 → 根因分析 → 影響評估 → 改善規劃 → 報告審查 → 整合報告。
以下輸入會啟動此技能:
啟動後,先詢問使用者提供以下資訊(未提供的項目可跳過):
請提供以下事故資訊:
1. 事故描述(必填):發生了什麼?何時開始?何時恢復?
2. 證據(選填):Log 片段、Metric 截圖、告警記錄、聊天記錄
3. 影響資訊(選填):受影響用戶數、服務名稱、持續時間
4. 已採取行動(選填):緊急措施、Rollback、通知等
從使用者輸入中提取並整理:
建立 _workspace/ 目錄,將整理後的輸入存為 _workspace/00_input.md。
目標:將混亂的事故事件依時間順序重建
執行內容:
輸出:_workspace/01_timeline.md
格式:
# 事故時間軸
## 事故概覽
- 事故 ID:INC-YYYY-MMDD-NNN
- 嚴重等級:SEV-1 / SEV-2 / SEV-3
- 受影響服務:[服務清單]
- 事故期間:YYYY-MM-DD HH:MM ~ HH:MM (UTC)
- 總停機時間:Xh Xm
- MTTD:Xm
- MTTR:Xh Xm
## 時間軸
| 時間 (UTC) | 事件 | 來源 | 類別 | 備註 |
|-----------|------|------|------|------|
## 資訊缺口
| 時間區間 | 缺少資訊 | 需進一步調查 |
## 關鍵指標變化
| 指標 | 正常值 | 事故期間 | 峰值 | 恢復後 |
目標:從表面症狀追溯到根本原因
執行內容(參考 sre-rca-methodology 技能):
原則:
輸出:_workspace/02_root_cause.md
目標:量化事故的業務影響
執行內容(參考 sre-sla-impact-calculator 技能):
原則:
輸出:_workspace/03_impact_assessment.md
目標:建立可執行的改善行動計畫
執行內容:
原則:
輸出:_workspace/04_remediation_plan.md
目標:交叉驗證各階段一致性,確保報告品質
驗證項目:
發現問題時:
輸出:_workspace/05_review_report.md
所有驗證通過後,整合所有分析產出完整的 Postmortem 報告。
輸出格式參考 sre-documentation-generation 技能的 POST-MORTEM.template.md 範本,確保與團隊既有文件格式一致。
輸出:_workspace/postmortem_report.md
格式:
# Incident Postmortem Report
## 執行摘要
## 事故概覽
## 時間軸
## 根因分析
## 影響評估
## 改善計畫
## 經驗教訓
## 附錄
_workspace/
├── 00_input.md # 整理後的使用者輸入
├── 01_timeline.md # 事故時間軸
├── 02_root_cause.md # 根因分析
├── 03_impact_assessment.md # 影響評估
├── 04_remediation_plan.md # 改善計畫
├── 05_review_report.md # 審查報告
└── postmortem_report.md # 完整 Postmortem 報告
tools
基於 SLA/SLO 量化評估事故影響的計算模型與業務影響矩陣。適用於「SLA 影響」、「SLO 違反」、「影響評估」、「營收損失估算」、「Error Budget」、「可用性計算」、「事故成本評估」等量化事故業務影響的任務。強化 impact-assessor 的評估能力。注意:事故原因分析與改善規劃不在此技能範圍內。
research
根因分析(RCA)方法論詳細指南。提供 5 Whys、Fishbone 圖、Fault Tree Analysis、變更分析等結構化 RCA 技術,以及認知偏誤防範清單。適用於「根因分析」、「RCA」、「5 Whys」、「魚骨圖」、「Fault Tree」、「原因分析方法論」、「變更分析」等事故原因分析任務。強化 root-cause-investigator 的分析能力。注意:時間軸重建與改善規劃不在此技能範圍內。
content-media
投影片版面模式庫。提供 20 種投影片類型的最佳版面配置、格線系統、色彩與字型設計 Token。適用於「投影片版面」、「Slide Layout」、「設計系統」、「格線」、「字型」、「色彩規範」等投影片視覺設計任務。強化 visual-designer 的設計能力。注意:PPT/Keynote 檔案直接輸出不在此技能範圍內。
content-media
簡報設計完整製作流程。協調 5 個製作階段:故事結構 → 資訊設計 → 視覺設計 → 講者備稿 → 品質審查,最終產出完整的簡報套件。適用於「製作簡報」、「Presentation 規劃」、「PPT 製作」、「Slide Deck 設計」、「簡報故事線」、「投影片設計」等請求。注意:PowerPoint/Keynote 檔案直接輸出、投影片動畫設定不在此技能範圍內。