docs/ja-JP/skills/eval-harness/SKILL.md
Claude Code 会话的正式评测框架,实现了评测驱动开发(EDD)原则
npx skillsauth add xu-xiang/everything-claude-code-zh eval-harnessInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
Claude Code 会话的正式评测框架,实现了评测驱动开发(Evaluation-Driven Development, EDD)原则。
评测驱动开发将评测视为“AI 开发的单元测试”:
测试 Claude 是否能够完成以前无法完成的任务:
[CAPABILITY EVAL: feature-name]
任务:Claude 应达成目标的描述
成功标准:
- [ ] 标准 1
- [ ] 标准 2
- [ ] 标准 3
预期输出:预期结果的描述
确保变更未破坏现有功能:
[REGRESSION EVAL: feature-name]
基线(Baseline):SHA 或检查点名称
测试:
- existing-test-1: PASS/FAIL
- existing-test-2: PASS/FAIL
- existing-test-3: PASS/FAIL
结果:X/Y 通过(之前为 Y/Y)
使用代码进行确定性检查:
# 检查文件中是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"
# 检查测试是否成功
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"
# 检查构建是否成功
npm run build && echo "PASS" || echo "FAIL"
使用 Claude 评测自由格式的输出:
[MODEL GRADER PROMPT]
请评估以下代码变更:
1. 是否解决了所述问题?
2. 结构是否合理?
3. 是否处理了边界情况?
4. 错误处理是否得当?
Score: 1-5 (1=差, 5=优秀)
Reasoning: [说明]
标记需要手动复审:
[HUMAN REVIEW REQUIRED]
变更:变更内容的说明
原因:需要人工复审的原因
风险等级:LOW/MEDIUM/HIGH
“k 次尝试中至少成功 1 次”
“k 次尝试全部成功”
## 评测定义:feature-xyz (EVAL DEFINITION: feature-xyz)
### 能力评测
1. 能够创建新用户账号
2. 能够验证邮箱格式
3. 能够安全地哈希化密码
### 回归评测
1. 现有登录功能依然可用
2. 会话管理未发生变更
3. 退出流程得以维持
### 成功指标
- 能力评测 pass@3 > 90%
- 回归评测 pass^3 = 100%
编写符合已定义评测要求的代码。
# 运行能力评测
[运行各能力评测并记录 PASS/FAIL]
# 运行回归评测
npm test -- --testPathPattern="existing"
# 生成报告
评测报告:feature-xyz (EVAL REPORT: feature-xyz)
========================
能力评测:
create-user: 通过 (PASS) (pass@1)
validate-email: 通过 (PASS) (pass@2)
hash-password: 通过 (PASS) (pass@1)
总体: 3/3 通过
回归评测:
login-flow: 通过 (PASS)
session-mgmt: 通过 (PASS)
logout-flow: 通过 (PASS)
总体: 3/3 通过
指标:
pass@1: 67% (2/3)
pass@3: 100% (3/3)
状态:可供评审 (READY FOR REVIEW)
/eval define feature-name
在 .claude/evals/feature-name.md 中创建评测定义文件。
/eval check feature-name
执行当前评测并报告状态。
/eval report feature-name
生成完整的评测报告。
在项目中存储评测:
.claude/
evals/
feature-xyz.md # 评测定义
feature-xyz.log # 评测执行历史
baseline.json # 回归基线
## 评测:添加身份验证 (EVAL: add-authentication)
### 第一阶段:定义 (10 分钟)
能力评测:
- [ ] 用户可以通过邮箱/密码注册
- [ ] 用户可以使用有效的凭据登录
- [ ] 无效凭据会被拒绝并返回适当错误
- [ ] 页面刷新后会话依然持久
- [ ] 退出登录会清除会话
回归评测:
- [ ] 公开路由依然可以访问
- [ ] API 响应未发生变更
- [ ] 数据库模式保持兼容
### 第二阶段:实现 (时长不定)
[编写代码]
### 第三阶段:评测
运行:/eval check add-authentication
### 第四阶段:报告
评测报告:添加身份验证 (EVAL REPORT: add-authentication)
==============================
能力:5/5 通过 (pass@3: 100%)
回归:3/3 通过 (pass^3: 100%)
状态:可以上线 (SHIP IT)
documentation
将签证申请文件(图像)翻译成英文,并创建包含原文和译文的双语 PDF。
development
Claude Code 会话的全方位验证系统。
tools
在编写新功能、修复 Bug 或重构代码时使用此技能。强制执行测试驱动开发(TDD),包括单元测试、集成测试和 E2E 测试,且覆盖率需达到 80% 以上。
tools
SwiftUI 架构模式,使用 @Observable 进行状态管理,视图组合、导航、性能优化以及现代 iOS/macOS UI 最佳实践。