bundled/skills/experiment-failure-analysis/SKILL.md
Systematically analyze experiment failures and optimization setbacks to identify root causes and define validation plans before abandonment decisions.
npx skillsauth add foryourhealth111-pixel/vco-skills-codex experiment-failure-analysisInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
系统化分析实验和优化方案失败的根本原因,避免轻易放弃方案。当测试结果不理想时,通过多层次的诊断框架深入分析问题,提出假设并设计验证实验,确保在充分论证后才做出放弃决策。
当出现以下情况时必须调用此skill:
触发关键词:
禁止立即放弃方案。必须经过完整的分析、假设提出、实验验证流程,并获得用户同意后才能放弃方案。
执行以下四层诊断分析:
首先排除实现错误:
代码正确性检查
性能实现检查
输出:明确指出代码层面的问题(如果有),或确认代码实现正确。
检查设计本身的合理性:
设计逻辑审查
适用性分析
输出:评估设计的合理性,指出潜在的设计缺陷。
深入检查方案的基础假设:
识别核心假设
假设验证
输出:列出所有假设及其验证结果,明确哪些假设不成立。
排除外部因素干扰:
测试环境检查
对比基准检查
输出:确认测试的有效性,排除测试问题。
完成四层分析后,生成结构化报告:
1. 主要原因:[最可能的失败原因]
- 证据:[支持这一结论的证据]
- 影响程度:[量化影响]
2. 次要原因:[其他可能的原因]
- 证据:[...]
- 影响程度:[...]
3. 不确定因素:[需要进一步验证的因素]
假设1:[具体假设描述]
- 理论依据:[...]
- 验证方法:[如何验证这个假设]
- 预期结果:[如果假设成立,应该观察到什么]
假设2:[...]
[...]
为每个假设设计具体的验证实验:
实验1:验证[假设1]
- 目的:[...]
- 步骤:
1. [...]
2. [...]
- 预期结果:[...]
- 判断标准:[如何根据结果判断假设是否成立]
实验2:验证[假设2]
[...]
基于分析提出可能的改进方向:
方向1:[改进方向]
- 理由:[为什么这个方向可能有效]
- 实施难度:[低/中/高]
- 预期效果:[...]
方向2:[...]
[...]
基于完整分析,提供明确的建议:
在提供完整分析报告后:
征求用户意见
执行验证实验
最终决策
使用以下结构化格式输出分析结果:
# 实验失败分析报告
## 问题概述
[简要描述实验方案和失败现象]
## 四层诊断分析
### 1. 代码实现分析
[分析结果]
### 2. 方案设计分析
[分析结果]
### 3. 假设验证分析
[分析结果]
### 4. 环境测试分析
[分析结果]
## 失败原因总结
[主要原因、次要原因、不确定因素]
## 可能性假设
[列出所有假设]
## 验证实验方案
[详细的实验设计]
## 改进方向建议
[具体的改进建议]
## 下一步行动
[建议的具体行动步骤]
---
**请确认**:
1. 您是否同意以上分析?
2. 是否需要补充其他信息?
3. 您希望优先执行哪些验证实验?
场景:实现了一个缓存优化方案,但测试发现性能反而下降了20%。
分析过程:
结论:方案设计合理,但实现有误且测试不充分。修复后性能提升40%。
场景:将O(n²)算法优化为O(n log n),但实际运行时间只减少了5%。
分析过程:
结论:优化方向错误,应该优化I/O而非算法复杂度。
1.0.0
development
Model interpretability and explainability using SHAP (SHapley Additive exPlanations). Use this skill when explaining machine learning model predictions, computing feature importance, generating SHAP plots (waterfall, beeswarm, bar, scatter, force, heatmap), debugging models, analyzing model bias or fairness, comparing models, or implementing explainable AI. Works with tree-based models (XGBoost, LightGBM, Random Forest), deep learning (TensorFlow, PyTorch), linear models, and any black-box model.
development
Use when the user asks to inspect Sentry issues or events, summarize recent production errors, or pull basic Sentry health data via the Sentry API; perform read-only queries with the bundled script and require `SENTRY_AUTH_TOKEN`.
development
World-class prompt engineering skill for LLM optimization, prompt patterns, structured outputs, and AI product development. Expertise in Claude, GPT-4, prompt design patterns, few-shot learning, chain-of-thought, and AI evaluation. Includes RAG optimization, agent design, and LLM system architecture. Use when building AI products, optimizing LLM performance, designing agentic systems, or implementing advanced prompting techniques.
development
World-class ML engineering skill for productionizing ML models, MLOps, and building scalable ML systems. Expertise in PyTorch, TensorFlow, model deployment, feature stores, model monitoring, and ML infrastructure. Includes LLM integration, fine-tuning, RAG systems, and agentic AI. Use when deploying ML models, building ML platforms, implementing MLOps, or integrating LLMs into production systems.