skills/k8s-debug/SKILL.md
Kubernetes troubleshooting workflow - Pod status, logs, events, exec, and resource monitoring.
npx skillsauth add vincent119/ai-rules-kit k8s-debugInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
Systematic approach to diagnose and fix Kubernetes application issues.
Identify pods in error states (CrashLoopBackOff, ImagePullBackOff, etc.):
kubectl get pods -o wide
kubectl describe pod <POD_NAME>
Check container logs for errors and stack traces:
# Current logs
kubectl logs <POD_NAME> [-c <CONTAINER>]
# Previous crash logs
kubectl logs <POD_NAME> --previous
Review cluster events for scheduling/mounting/health check failures:
kubectl get events --sort-by=.lastTimestamp
Debug filesystem, environment, or network issues:
kubectl exec -it <POD_NAME> -- sh
# Inside container:
env # Check environment variables
curl localhost:8080 # Test HTTP endpoints
nc -zv <HOST> <PORT> # Test network connectivity
Forward pod port to local for testing:
kubectl port-forward <POD_NAME> 8080:8080
Check for OOM or CPU throttling:
kubectl top pod <POD_NAME>
| Issue | Command | Solution |
|-------|---------|----------|
| CrashLoopBackOff | logs --previous | Check startup errors |
| ImagePullBackOff | describe pod | Verify image name/credentials |
| Pending | get events | Check resource limits/node capacity |
| OOMKilled | top pod | Increase memory limits |
tools
基於 SLA/SLO 量化評估事故影響的計算模型與業務影響矩陣。適用於「SLA 影響」、「SLO 違反」、「影響評估」、「營收損失估算」、「Error Budget」、「可用性計算」、「事故成本評估」等量化事故業務影響的任務。強化 impact-assessor 的評估能力。注意:事故原因分析與改善規劃不在此技能範圍內。
research
根因分析(RCA)方法論詳細指南。提供 5 Whys、Fishbone 圖、Fault Tree Analysis、變更分析等結構化 RCA 技術,以及認知偏誤防範清單。適用於「根因分析」、「RCA」、「5 Whys」、「魚骨圖」、「Fault Tree」、「原因分析方法論」、「變更分析」等事故原因分析任務。強化 root-cause-investigator 的分析能力。注意:時間軸重建與改善規劃不在此技能範圍內。
testing
事故事後分析(Postmortem)完整流程。協調 7 個執行階段:資訊收集 → 時間軸重建 → 根因分析 → 影響評估 → 改善規劃 → 報告審查 → 整合報告,最終產出完整的 Postmortem 報告。適用於「寫事故報告」、「post-incident 分析」、「RCA 報告」、「事故時間軸整理」、「建立改善措施」等請求。注意:即時 Incident Response(on-call)、監控系統設定、告警配置不在此技能範圍內。
content-media
投影片版面模式庫。提供 20 種投影片類型的最佳版面配置、格線系統、色彩與字型設計 Token。適用於「投影片版面」、「Slide Layout」、「設計系統」、「格線」、「字型」、「色彩規範」等投影片視覺設計任務。強化 visual-designer 的設計能力。注意:PPT/Keynote 檔案直接輸出不在此技能範圍內。