claude/skills/empirical-prompt-tuning/SKILL.md
agent 向けテキスト指示(skill / slash command / task プロンプト / CLAUDE.md 節 / コード生成プロンプト)を、バイアスを排した実行者に動かしてもらい、両面(実行者の自己申告 + 指示側メトリクス)で評価して反復改善する手法。改善が頭打ちになるまで回す。プロンプトや skill を新規作成・大幅改訂した直後、またはエージェントの挙動が期待通りにならない原因を指示側の曖昧さに求めたいときに使う。
npx skillsauth add hokuto100retsuken/dotfiles empirical-prompt-tuningInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
プロンプトの品質は書いた本人には分からない。バイアスを排した実行者に実際に動かしてもらい、両面で評価して反復するのが核。改善が頭打ちになるまで止めない。
使う: skill / プロンプトを新規作成・大幅改訂した直後、または挙動の原因を指示側の曖昧さに求めたいとき。使わない: 使い捨てプロンプト、主観的好みを反映したいだけのとき。
description が謳う用途と body のカバー範囲に乖離があれば iter 1 前に合わせる(飛ばすと subagent が body を再解釈し false positive)。[critical] 要件が**全て ○**のときのみ成功。1 つでも × / 部分的なら失敗(○ / × の 2 値)。tool_uses、Read/Grep 含む)、所要時間(duration_ms)、再試行回数(レポートから)[critical] は最低 1 つ必須(0 件だと成功判定が vacuous)。事後に付け外ししない。質的(不明瞭点・裁量補完)を主、量的(時間・ステップ数・再試行)を補助(時間短縮だけ追うと痩せる)。tool_uses はシナリオ間の相対値で見る — 1 シナリオだけ他比 3-5 倍以上なら自己完結性が低く references descent を強いているサイン(対処は最小完成例の inline 化)。精度 100% でも偏りがあれば iter 継続の根拠。
実行者に渡すプロンプトの構造(両面評価の入力契約):
あなたは <対象プロンプト名> を白紙で読む実行者です。
## 対象プロンプト
<本文を全文貼る or Read で読ませるパス>
## シナリオ
<状況設定 1 段落>
## 要件チェックリスト
1. [critical] <最低ラインの項目>
2. <通常項目>
(判定規則はワークフロー 4 に一元定義。[critical] 最低 1 つ必須。)
## タスク
1. 対象プロンプトに従いシナリオを実行し成果物を生成。
2. 終了時に下記構造で返答。
## レポート構造
- 成果物: <生成物 or 実行結果サマリ>
- 要件達成: 各項目 ○ / × / 部分的(理由付き)
- 不明瞭点: 詰まった箇所・迷った文言(箇条書き)
- 裁量補完: 自分の判断で埋めた箇所(箇条書き)
- 再試行: やり直し回数と理由
呼び出し側はレポートの自己申告を抽出し、tool_uses / duration_ms を usage メタから取得して評価軸を埋める。
新規 subagent を dispatch できない環境では本 skill は適用しない。代替: 別セッションへ依頼 / 評価を諦め「empirical evaluation skipped」と報告。NG: 自己再読で代替(バイアスが入る)。
構造審査モード: 実行せずテキスト整合性だけ見たいときは、依頼プロンプトに「構造審査モード」と明記すれば skip 動作に引っかからず静的レビューを返せる。empirical の代替ではなく補助(連続クリア判定には使えない)。
## Iteration N
### 変更点(前回差分)
- <修正 1 行>
### 実行結果(シナリオ別)
| シナリオ | 成功/失敗 | 精度 | steps | duration | retries |
|---|---|---|---|---|---|
| A | ○ | 90% | 4 | 20s | 0 |
### 不明瞭点(今回新出)
- <シナリオ>: [critical] 項目 N が × — <理由> # 失敗時必須
### 裁量補完(今回新出)
- <シナリオ>: <補完内容>
### 次の修正案
- <最小修正 1 行>
(収束判定: 連続 X 回クリア / 停止まであと Y 回)
superpowers:writing-skills(skill 作成の TDD、本質的に同じ)/ retrospective-codify(タスク終了後の学び固定化、本 skill は開発中)/ superpowers:dispatching-parallel-agents(並列実行の作法)
development
大きめの開発タスクを「質問→計画→並列実装→クロスレビュー→修正ループ→整え→ドラフトPR」のパイプラインで進める。新機能・複数ファイルにまたがる変更・リファクタなど、一回の指示で完結しない規模のタスクで使用。計画承認後はドラフトPR作成まで自走する。
development
リポジトリ内に API キー、パスワード、トークンなどの機密情報が混入していないかをチェックし、セキュリティを保護するためのスキルです。新しい設定ファイルを追加したり、既存のファイルを変更したりする際に、誤って個人情報が含まれないよう監視します。
development
コードや設定ファイルの可読性、保守性、一貫性を向上させるためのリファクタリング専門スキルです。肥大化した設定の分割、重複の削除、より現代的でクリーンな記法への変更が必要な場合に使用します。
tools
この dotfiles リポジトリの管理と拡張に特化した知識を提供します。シェル設定 (fish)、ターミナル設定 (ghostty)、エディタ設定 (nvim) の変更、または新しい設定のシンボリックリンク追加時に使用します。