docs/tr/skills/eval-harness/SKILL.md
Eval-driven development (EDD) ilkelerini uygulayan Claude Code oturumları için formal değerlendirme çerçevesi
npx skillsauth add ysyecust/everything-claude-code eval-harnessInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
Claude Code oturumları için eval-driven development (EDD) ilkelerini uygulayan formal değerlendirme çerçevesi.
Eval-Driven Development, eval'ları "AI geliştirmenin birim testleri" olarak ele alır:
Claude'un daha önce yapamadığı bir şeyi yapıp yapamadığını test et:
[CAPABILITY EVAL: feature-name]
Görev: Claude'un başarması gereken şeyin açıklaması
Başarı Kriterleri:
- [ ] Kriter 1
- [ ] Kriter 2
- [ ] Kriter 3
Beklenen Çıktı: Beklenen sonucun açıklaması
Değişikliklerin mevcut fonksiyonaliteyi bozmadığından emin ol:
[REGRESSION EVAL: feature-name]
Baseline: SHA veya checkpoint adı
Testler:
- existing-test-1: PASS/FAIL
- existing-test-2: PASS/FAIL
- existing-test-3: PASS/FAIL
Sonuç: X/Y geçti (önceden Y/Y)
Kod kullanarak deterministik kontroller:
# Dosyanın beklenen pattern içerip içermediğini kontrol et
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"
# Testlerin geçip geçmediğini kontrol et
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"
# Build'in başarılı olup olmadığını kontrol et
npm run build && echo "PASS" || echo "FAIL"
Açık uçlu çıktıları değerlendirmek için Claude kullan:
[MODEL GRADER PROMPT]
Aşağıdaki kod değişikliğini değerlendir:
1. Belirtilen sorunu çözüyor mu?
2. İyi yapılandırılmış mı?
3. Edge case'ler işleniyor mu?
4. Hata işleme uygun mu?
Puan: 1-5 (1=kötü, 5=mükemmel)
Gerekçe: [açıklama]
Manuel inceleme için işaretle:
[HUMAN REVIEW REQUIRED]
Değişiklik: Neyin değiştiğinin açıklaması
Sebep: Neden insan incelemesi gerekli
Risk Seviyesi: DÜŞÜK/ORTA/YÜKSEK
"k denemede en az bir başarı"
"Tüm k denemeler başarılı"
## EVAL DEFINITION: feature-xyz
### Capability Eval'ları
1. Yeni kullanıcı hesabı oluşturabilir
2. Email formatını doğrulayabilir
3. Şifreyi güvenli şekilde hash'leyebilir
### Regression Eval'ları
1. Mevcut login hala çalışıyor
2. Oturum yönetimi değişmedi
3. Logout akışı sağlam
### Başarı Metrikleri
- capability eval'lar için pass@3 > %90
- regression eval'lar için pass^3 = %100
Tanımlanan eval'ları geçmek için kod yaz.
# Capability eval'ları çalıştır
[Her capability eval'ı çalıştır, PASS/FAIL kaydet]
# Regression eval'ları çalıştır
npm test -- --testPathPattern="existing"
# Rapor oluştur
EVAL REPORT: feature-xyz
========================
Capability Eval'ları:
create-user: PASS (pass@1)
validate-email: PASS (pass@2)
hash-password: PASS (pass@1)
Genel: 3/3 geçti
Regression Eval'ları:
login-flow: PASS
session-mgmt: PASS
logout-flow: PASS
Genel: 3/3 geçti
Metrikler:
pass@1: %67 (2/3)
pass@3: %100 (3/3)
Durum: İNCELEMEYE HAZIR
/eval define feature-name
.claude/evals/feature-name.md konumunda eval tanım dosyası oluşturur
/eval check feature-name
Mevcut eval'ları çalıştırır ve durumu raporlar
/eval report feature-name
Tam eval raporu oluşturur
Eval'ları projede sakla:
.claude/
evals/
feature-xyz.md # Eval tanımı
feature-xyz.log # Eval çalıştırma geçmişi
baseline.json # Regression baseline'ları
## EVAL: add-authentication
### Faz 1: Tanımla (10 dk)
Capability Eval'ları:
- [ ] Kullanıcı email/şifre ile kayıt olabilir
- [ ] Kullanıcı geçerli kimlik bilgileriyle giriş yapabilir
- [ ] Geçersiz kimlik bilgileri uygun hatayla reddedilir
- [ ] Oturumlar sayfa yeniden yüklemelerinde kalıcıdır
- [ ] Logout oturumu temizler
Regression Eval'ları:
- [ ] Halka açık rotalar hala erişilebilir
- [ ] API yanıtları değişmedi
- [ ] Veritabanı şeması uyumlu
### Faz 2: Uygula (değişir)
[Kod yaz]
### Faz 3: Değerlendir
Çalıştır: /eval check add-authentication
### Faz 4: Raporla
EVAL REPORT: add-authentication
==============================
Capability: 5/5 geçti (pass@3: %100)
Regression: 3/3 geçti (pass^3: %100)
Durum: YAYINLA
Davranış kalitesi sadece birim testlerle yakalanamadığında product eval'ları kullan.
pass@1: doğrudan güvenilirlikpass@3: kontrollü yeniden denemeler altında pratik güvenilirlikpass^3: kararlılık testi (3 çalıştırmanın tümü geçmeli)Önerilen eşikler:
.claude/evals/<feature>.md tanımı.claude/evals/<feature>.log çalıştırma geçmişidocs/releases/<version>/eval-summary.md yayın snapshot'ıdocumentation
将签证申请文件(图片)翻译成英文,并创建包含原文和译文的双语PDF
content-media
视频与音频的查看、理解与行动。查看:从本地文件、URL、RTSP/直播源或实时录制桌面获取内容;返回实时上下文和可播放流链接。理解:提取帧,构建视觉/语义/时间索引,并通过时间戳和自动剪辑搜索片段。行动:转码和标准化(编解码器、帧率、分辨率、宽高比),执行时间线编辑(字幕、文本/图像叠加、品牌化、音频叠加、配音、翻译),生成媒体资源(图像、音频、视频),并为直播流或桌面捕获的事件创建实时警报。
data-ai
AI辅助的视频编辑工作流程,用于剪辑、构建和增强实拍素材。涵盖从原始拍摄到FFmpeg、Remotion、ElevenLabs、fal.ai,再到Descript或CapCut最终润色的完整流程。适用于用户想要编辑视频、剪辑素材、制作vlog或构建视频内容的情况。
development
Claude Code 会话的全面验证系统。