.claude/skills/llm-evaluate/SKILL.md
Evaluate LLM models for cost/performance ratio. Fetches current pricing and recommends optimal model for your use case. Use during project init or when optimizing costs.
npx skillsauth add lucidlabs-hq/agent-kit llm-evaluateInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.
/init-project bei der KomplexitätsbewertungFalls kein Argument übergeben, frage:
Was ist dein Use Case?
Beispiele:
• "Chat-Bot für Kundenservice" (High-Volume, schnelle Antworten)
• "Dokumenten-Analyse" (Langer Context, Reasoning)
• "Code-Generierung" (Präzision wichtig)
• "GDPR-konforme EU-App" (Compliance)
• "Budget-Projekt" (Kosten minimieren)
WICHTIG: Preise ändern sich häufig. Hole aktuelle Daten.
Suche nach aktuellen Preisen mit WebSearch:
Query: "[Provider] API pricing 2026"
Für jeden Provider:
Einige Provider haben öffentliche Pricing-Pages:
| Provider | Pricing URL | |----------|-------------| | Anthropic | https://www.anthropic.com/pricing | | OpenAI | https://openai.com/api/pricing | | Google | https://ai.google.dev/pricing | | DeepSeek | https://platform.deepseek.com/api-docs/pricing | | Mistral | https://mistral.ai/technology/#pricing | | xAI | https://x.ai/api |
Falls Web-Fetch fehlschlägt, nutze .claude/reference/llm-configuration.md als Fallback (aber weise auf möglicherweise veraltete Daten hin).
| Kriterium | Gewichtung | Beschreibung | |-----------|------------|--------------| | Kosten | 30% | Input + Output Tokens | | Qualität | 30% | Benchmark-Scores, Erfahrungswerte | | Latenz | 20% | Time to first token, Throughput | | Context | 10% | Max Context Window | | Features | 10% | Vision, Tools, Streaming |
| Use Case | Wichtig | Unwichtig | |----------|---------|-----------| | Chat-Bot | Latenz, Kosten | Context | | Dokument-Analyse | Context, Qualität | Latenz | | Code-Gen | Qualität | Kosten | | High-Volume | Kosten, Latenz | Qualität | | GDPR | Compliance | Kosten |
┌─────────────────────────────────────────────────────────────────────────────┐
│ LLM EVALUATION - [Use Case] │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 📅 Preise Stand: [Datum der Abfrage] │
│ │
│ TOP 3 EMPFEHLUNGEN: │
│ │
│ 🥇 #1: [Modell] │
│ Provider: [Provider] │
│ Input: $[X]/1M tokens │
│ Output: $[X]/1M tokens │
│ Context: [X]K │
│ Score: [X]/100 (basierend auf Use Case) │
│ Warum: [Begründung] │
│ │
│ 🥈 #2: [Modell] │
│ ... │
│ │
│ 🥉 #3: [Modell] │
│ ... │
│ │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ KOSTEN-SCHÄTZUNG (bei 1M Requests/Monat, 1000 Tokens avg): │
│ │
│ Modell #1: ~$[X]/Monat │
│ Modell #2: ~$[X]/Monat │
│ Modell #3: ~$[X]/Monat │
│ │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ FALLBACK-STRATEGIE: │
│ │
│ Primary: [Modell #1] │
│ Fallback: [Modell #2] │
│ Budget: [Modell #3] │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
Falls gewünscht, generiere die Portkey-Konfiguration:
// Empfohlene Portkey Konfiguration für [Use Case]
const config = {
strategy: {
mode: 'fallback',
},
targets: [
{ provider: '[primary]', model: '[model]' },
{ provider: '[fallback]', model: '[model]' },
],
cache: {
mode: 'semantic',
ttl: 3600,
},
};
Falls signifikante Preisänderungen gefunden wurden:
.claude/reference/llm-configuration.md aktualisiert werden sollDieser Skill sollte regelmäßig genutzt werden:
Empfehlung: Führe /llm-evaluate monatlich aus um:
- Neue Modelle zu entdecken
- Preisänderungen zu berücksichtigen
- Kosten-Optimierung zu prüfen
Während /init-project wird dieser Skill automatisch bei der Komplexitätsbewertung (Step 0.2) aufgerufen um das optimale Modell für den Use Case zu empfehlen.
| Modell | Input/1M | Output/1M | Context | Stärken | |--------|----------|-----------|---------|---------| | Claude Opus 4.5 | $15 | $75 | 200K | Best reasoning | | Claude Sonnet 4 | $3 | $15 | 200K | Best coding | | Claude Haiku 3.5 | $0.25 | $1.25 | 200K | Fast, cheap |
| Modell | Input/1M | Output/1M | Context | Stärken | |--------|----------|-----------|---------|---------| | GPT-4o | $5 | $15 | 128K | Multimodal | | GPT-4o-mini | $0.15 | $0.60 | 128K | Budget GPT-4 | | o1 | $15 | $60 | 200K | Deep reasoning |
| Modell | Input/1M | Output/1M | Context | Stärken | |--------|----------|-----------|---------|---------| | Gemini 2.0 Pro | $7 | $21 | 1M | Long context | | Gemini 2.0 Flash | $0.10 | $0.40 | 1M | Fast, cheap | | Gemini Flash 8B | $0.04 | $0.15 | 1M | Ultra cheap |
| Modell | Input/1M | Output/1M | Context | Stärken | |--------|----------|-----------|---------|---------| | DeepSeek V3 | $0.27 | $1.10 | 64K | Open-weight | | DeepSeek R1 | $0.55 | $2.19 | 64K | Reasoning |
| Modell | Input/1M | Output/1M | Context | Stärken | |--------|----------|-----------|---------|---------| | Grok 2 | $2 | $10 | 128K | Realtime data | | Grok 2 Vision | $2 | $10 | 32K | Image understanding |
| Modell | Input/1M | Output/1M | Context | Stärken | |--------|----------|-----------|---------|---------| | Mistral Large | $2 | $6 | 128K | EU-hosted | | Codestral | $0.30 | $0.90 | 256K | Code | | Mistral Small | $0.20 | $0.60 | 128K | Budget |
User: /llm-evaluate Chat-Bot für Kundenservice
Claude:
┌─────────────────────────────────────────────────────────────────────────────┐
│ LLM EVALUATION - Customer Service Chat Bot │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 📅 Preise Stand: Januar 2026 │
│ │
│ TOP 3 EMPFEHLUNGEN: │
│ │
│ 🥇 #1: Claude Haiku 3.5 │
│ Provider: Anthropic │
│ Input: $0.25/1M tokens │
│ Output: $1.25/1M tokens │
│ Context: 200K │
│ Score: 92/100 │
│ Warum: Schnell, günstig, gute Qualität für Chat │
│ │
│ 🥈 #2: Gemini 2.0 Flash │
│ Provider: Google │
│ Input: $0.10/1M tokens │
│ Output: $0.40/1M tokens │
│ Context: 1M │
│ Score: 88/100 │
│ Warum: Noch günstiger, aber weniger konsistent │
│ │
│ 🥉 #3: DeepSeek V3 │
│ Provider: DeepSeek │
│ Input: $0.27/1M tokens │
│ Output: $1.10/1M tokens │
│ Context: 64K │
│ Score: 82/100 │
│ Warum: Sehr günstig, aber China-based (Compliance?) │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
Dieser Skill wird automatisch während /init-project aufgerufen:
/llm-evaluate läuft im HintergrundVersion: 1.0 Last Updated: January 2026
development
Deploy invoice-accounting-assistant to HQ server. Runs tests first (TDD), then builds and deploys. Use when ready to push changes to staging/production.
testing
Visual UI verification with agent-browser. Use after implementing UI components to take screenshots, verify interactions, and self-check your work. FASTER than E2E tests.
documentation
Update README with current project status and features. Use after completing features.
tools
--- name: time-report description: Cross-project time report. Aggregates all session data from ~/.claude-time/sessions/. Use to see how much time was spent across all projects. disable-model-invocation: true allowed-tools: Bash, Read argument-hint: [all | this-week | this-month | last-month | {project-name}] --- # Time Report: Cross-Project Session Overview ## Objective Read ALL session files from `~/.claude-time/sessions/*.json` and produce an aggregated time report. Supports filtering by pe