Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

xu-xiang/eval-harness

Name: eval-harness
Author: xu-xiang

docs/ja-JP/skills/eval-harness/SKILL.md

npx skillsauth add xu-xiang/everything-claude-code-zh eval-harness

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

评测工具集（Eval Harness）技能

Claude Code 会话的正式评测框架，实现了评测驱动开发（Evaluation-Driven Development, EDD）原则。

哲学

评测驱动开发将评测视为“AI 开发的单元测试”：

在实现前定义预期行为
开发过程中持续运行评测
追踪每次变更的回归情况
使用 pass@k 指标衡量可靠性

评测类型

能力评测（Capability Eval）

测试 Claude 是否能够完成以前无法完成的任务：

[CAPABILITY EVAL: feature-name]
任务：Claude 应达成目标的描述
成功标准：
  - [ ] 标准 1
  - [ ] 标准 2
  - [ ] 标准 3
预期输出：预期结果的描述

回归评测（Regression Eval）

确保变更未破坏现有功能：

[REGRESSION EVAL: feature-name]
基线（Baseline）：SHA 或检查点名称
测试：
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
结果：X/Y 通过（之前为 Y/Y）

评测者类型

1. 代码库评测者（Codebase Graders）

使用代码进行确定性检查：

# 检查文件中是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# 检查测试是否成功
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# 检查构建是否成功
npm run build && echo "PASS" || echo "FAIL"

2. 基于模型的评测者（Model-Based Graders）

使用 Claude 评测自由格式的输出：

[MODEL GRADER PROMPT]
请评估以下代码变更：
1. 是否解决了所述问题？
2. 结构是否合理？
3. 是否处理了边界情况？
4. 错误处理是否得当？

Score: 1-5 (1=差, 5=优秀)
Reasoning: [说明]

3. 人工评测者（Human Graders）

标记需要手动复审：

[HUMAN REVIEW REQUIRED]
变更：变更内容的说明
原因：需要人工复审的原因
风险等级：LOW/MEDIUM/HIGH

指标

pass@k

“k 次尝试中至少成功 1 次”

pass@1: 首次尝试的成功率
pass@3: 3 次以内的成功率
常见目标：pass@3 > 90%

pass^k

“k 次尝试全部成功”

更高可靠性的标准
pass^3: 连续 3 次成功
用于关键路径（Critical Path）

评测工作流

1. 定义（编码前）

## 评测定义：feature-xyz (EVAL DEFINITION: feature-xyz)

### 能力评测
1. 能够创建新用户账号
2. 能够验证邮箱格式
3. 能够安全地哈希化密码

### 回归评测
1. 现有登录功能依然可用
2. 会话管理未发生变更
3. 退出流程得以维持

### 成功指标
- 能力评测 pass@3 > 90%
- 回归评测 pass^3 = 100%

2. 实现

编写符合已定义评测要求的代码。

3. 评测

# 运行能力评测
[运行各能力评测并记录 PASS/FAIL]

# 运行回归评测
npm test -- --testPathPattern="existing"

# 生成报告

4. 报告

评测报告：feature-xyz (EVAL REPORT: feature-xyz)
========================

能力评测：
  create-user:     通过 (PASS) (pass@1)
  validate-email:  通过 (PASS) (pass@2)
  hash-password:   通过 (PASS) (pass@1)
  总体：           3/3 通过

回归评测：
  login-flow:      通过 (PASS)
  session-mgmt:    通过 (PASS)
  logout-flow:     通过 (PASS)
  总体：           3/3 通过

指标：
  pass@1: 67% (2/3)
  pass@3: 100% (3/3)

状态：可供评审 (READY FOR REVIEW)

集成模式

实现前

/eval define feature-name

在 .claude/evals/feature-name.md 中创建评测定义文件。

实现中

/eval check feature-name

执行当前评测并报告状态。

实现后

/eval report feature-name

生成完整的评测报告。

评测存储

在项目中存储评测：

.claude/
  evals/
    feature-xyz.md      # 评测定义
    feature-xyz.log     # 评测执行历史
    baseline.json       # 回归基线

最佳实践

编码前定义评测 —— 强制明确思考成功标准。
频繁运行评测 —— 及早发现回归问题。
追踪 pass@k 随时间的变化 —— 监控可靠性趋势。
尽可能使用代码评测者 —— 确定性 > 概率性。
安全问题由人工复审 —— 不要完全自动执行安全检查。
保持评测高效 —— 缓慢的评测将不会被执行。
评测与代码版本管理同步 —— 评测是一等公民产物。

示例：添加身份验证

## 评测：添加身份验证 (EVAL: add-authentication)

### 第一阶段：定义 (10 分钟)
能力评测：
- [ ] 用户可以通过邮箱/密码注册
- [ ] 用户可以使用有效的凭据登录
- [ ] 无效凭据会被拒绝并返回适当错误
- [ ] 页面刷新后会话依然持久
- [ ] 退出登录会清除会话

回归评测：
- [ ] 公开路由依然可以访问
- [ ] API 响应未发生变更
- [ ] 数据库模式保持兼容

### 第二阶段：实现 (时长不定)
[编写代码]

### 第三阶段：评测
运行：/eval check add-authentication

### 第四阶段：报告
评测报告：添加身份验证 (EVAL REPORT: add-authentication)
==============================
能力：5/5 通过 (pass@3: 100%)
回归：3/3 通过 (pass^3: 100%)
状态：可以上线 (SHIP IT)

xu-xiang/eval-harness

docs/ja-JP/skills/eval-harness/SKILL.md

Claude Code 会话的正式评测框架，实现了评测驱动开发（EDD）原则

410 stars

development

Updated Apr 17, 2026

$ install --global

skillsauth

npx skillsauth add xu-xiang/everything-claude-code-zh eval-harness

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 17, 2026, 12:25 PM9.6s1 file scanned

SKILL.md

name:: eval-harness
description:: Claude Code 会话的正式评测框架，实现了评测驱动开发（EDD）原则
tools:: Read, Write, Edit, Bash, Grep, Glob

评测工具集（Eval Harness）技能

Claude Code 会话的正式评测框架，实现了评测驱动开发（Evaluation-Driven Development, EDD）原则。

哲学

评测驱动开发将评测视为“AI 开发的单元测试”：

在实现前定义预期行为
开发过程中持续运行评测
追踪每次变更的回归情况
使用 pass@k 指标衡量可靠性

评测类型

能力评测（Capability Eval）

测试 Claude 是否能够完成以前无法完成的任务：

[CAPABILITY EVAL: feature-name]
任务：Claude 应达成目标的描述
成功标准：
  - [ ] 标准 1
  - [ ] 标准 2
  - [ ] 标准 3
预期输出：预期结果的描述

回归评测（Regression Eval）

确保变更未破坏现有功能：

[REGRESSION EVAL: feature-name]
基线（Baseline）：SHA 或检查点名称
测试：
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
结果：X/Y 通过（之前为 Y/Y）

评测者类型

1. 代码库评测者（Codebase Graders）

使用代码进行确定性检查：

# 检查文件中是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# 检查测试是否成功
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# 检查构建是否成功
npm run build && echo "PASS" || echo "FAIL"

2. 基于模型的评测者（Model-Based Graders）

使用 Claude 评测自由格式的输出：

[MODEL GRADER PROMPT]
请评估以下代码变更：
1. 是否解决了所述问题？
2. 结构是否合理？
3. 是否处理了边界情况？
4. 错误处理是否得当？

Score: 1-5 (1=差, 5=优秀)
Reasoning: [说明]

3. 人工评测者（Human Graders）

标记需要手动复审：

[HUMAN REVIEW REQUIRED]
变更：变更内容的说明
原因：需要人工复审的原因
风险等级：LOW/MEDIUM/HIGH

指标

pass@k

“k 次尝试中至少成功 1 次”

pass@1: 首次尝试的成功率
pass@3: 3 次以内的成功率
常见目标：pass@3 > 90%

pass^k

“k 次尝试全部成功”

更高可靠性的标准
pass^3: 连续 3 次成功
用于关键路径（Critical Path）

评测工作流

1. 定义（编码前）

## 评测定义：feature-xyz (EVAL DEFINITION: feature-xyz)

### 能力评测
1. 能够创建新用户账号
2. 能够验证邮箱格式
3. 能够安全地哈希化密码

### 回归评测
1. 现有登录功能依然可用
2. 会话管理未发生变更
3. 退出流程得以维持

### 成功指标
- 能力评测 pass@3 > 90%
- 回归评测 pass^3 = 100%

2. 实现

编写符合已定义评测要求的代码。

3. 评测

# 运行能力评测
[运行各能力评测并记录 PASS/FAIL]

# 运行回归评测
npm test -- --testPathPattern="existing"

# 生成报告

4. 报告

评测报告：feature-xyz (EVAL REPORT: feature-xyz)
========================

能力评测：
  create-user:     通过 (PASS) (pass@1)
  validate-email:  通过 (PASS) (pass@2)
  hash-password:   通过 (PASS) (pass@1)
  总体：           3/3 通过

回归评测：
  login-flow:      通过 (PASS)
  session-mgmt:    通过 (PASS)
  logout-flow:     通过 (PASS)
  总体：           3/3 通过

指标：
  pass@1: 67% (2/3)
  pass@3: 100% (3/3)

状态：可供评审 (READY FOR REVIEW)

集成模式

实现前

/eval define feature-name

在 .claude/evals/feature-name.md 中创建评测定义文件。

实现中

/eval check feature-name

执行当前评测并报告状态。

实现后

/eval report feature-name

生成完整的评测报告。

评测存储

在项目中存储评测：

.claude/
  evals/
    feature-xyz.md      # 评测定义
    feature-xyz.log     # 评测执行历史
    baseline.json       # 回归基线

最佳实践

编码前定义评测 —— 强制明确思考成功标准。
频繁运行评测 —— 及早发现回归问题。
追踪 pass@k 随时间的变化 —— 监控可靠性趋势。
尽可能使用代码评测者 —— 确定性 > 概率性。
安全问题由人工复审 —— 不要完全自动执行安全检查。
保持评测高效 —— 缓慢的评测将不会被执行。
评测与代码版本管理同步 —— 评测是一等公民产物。

示例：添加身份验证

## 评测：添加身份验证 (EVAL: add-authentication)

### 第一阶段：定义 (10 分钟)
能力评测：
- [ ] 用户可以通过邮箱/密码注册
- [ ] 用户可以使用有效的凭据登录
- [ ] 无效凭据会被拒绝并返回适当错误
- [ ] 页面刷新后会话依然持久
- [ ] 退出登录会清除会话

回归评测：
- [ ] 公开路由依然可以访问
- [ ] API 响应未发生变更
- [ ] 数据库模式保持兼容

### 第二阶段：实现 (时长不定)
[编写代码]

### 第三阶段：评测
运行：/eval check add-authentication

### 第四阶段：报告
评测报告：添加身份验证 (EVAL REPORT: add-authentication)
==============================
能力：5/5 通过 (pass@3: 100%)
回归：3/3 通过 (pass^3: 100%)
状态：可以上线 (SHIP IT)

Related Skills

xu-xiang/visa-doc-translate

documentation

VerifiedTrustedCommunity

将签证申请文件（图像）翻译成英文，并创建包含原文和译文的双语 PDF。

411SKILL.mdUpdated Apr 18, 2026

xu-xiang/visa-doc-translate

xu-xiang/verification-loop

development

VerifiedTrustedCommunity

Claude Code 会话的全方位验证系统。

410SKILL.mdUpdated Apr 17, 2026

xu-xiang/verification-loop

xu-xiang/tdd-workflow

tools

VerifiedTrustedCommunity

在编写新功能、修复 Bug 或重构代码时使用此技能。强制执行测试驱动开发（TDD），包括单元测试、集成测试和 E2E 测试，且覆盖率需达到 80% 以上。

410SKILL.mdUpdated Apr 17, 2026

xu-xiang/tdd-workflow

xu-xiang/swiftui-patterns

tools

VerifiedTrustedCommunity

SwiftUI 架构模式，使用 @Observable 进行状态管理，视图组合、导航、性能优化以及现代 iOS/macOS UI 最佳实践。

410SKILL.mdUpdated Apr 17, 2026

xu-xiang/swiftui-patterns

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/xu-xiang/everything-claude-code-zh.git

# Copy into Claude Code skills folder (global)
cp -r everything-claude-code-zh/docs/ja-JP/skills/eval-harness ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

xu-xiang/everything-claude-code-zh

410 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT