i18n/de/skills/manage-token-budget/SKILL.md
Token-Verbrauch in agentischen Systemen ueberwachen, begrenzen und nach Ueberschreitung wiederherstellen. Umfasst zyklusbasiertes Kostentracking, Kontextfenster-Audits, Budgeobergrenzen mit Durchsetzungsrichtlinien, Notfall-Pruning beim Naehern an Grenzen und Progressive-Disclosure-Integration zur Token-Minimierung beim Routing. Verwenden bei langlebigen Agent-Schleifen (Heartbeats, Polling, autonome Workflows), bei unvorhersehbar wachsenden Kontextfenstern zwischen Zyklen, bei unerwartet gestiegenen API-Kosten, beim Entwurf neuer agentischer Workflows oder bei der Post-mortem-Analyse eines Kostenvorfalls.
npx skillsauth add pjt222/agent-almanac manage-token-budgetInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
Kosten und Kontext-Fussabdruck agentischer Systeme kontrollieren: Token-Verbrauch pro Zyklus tracken, den Kontextbedarf der einzelnen Komponenten ermitteln, Budgetobergrenzen durchsetzen, geringwertigen Kontext unter Druck prunen und ueber Metadaten routen, bevor vollstaendige Verfahren geladen werden. Das Kernprinzip: Jedes Token im Kontextfenster muss seinen Platz verdienen. Tokens, die Entscheidungen beeinflussen, bleiben; Tokens, die Platz belegen ohne die Ausgabe zu beeinflussen, werden entfernt.
Community-Evidenz: Eine 37-stuendige autonome Sitzung kostete 13,74 $ — verursacht durch ein 30-minuetiges Heartbeat-Intervall kombiniert mit ausfuehrlichen Systemanweisungen und unkontrollierter Kontextakkumulation. Die Loesung war, den Heartbeat auf 4-Stunden-Intervalle umzustellen, in den Benachrichtigungsmodus zu wechseln und Feed-Browsing aus der Schleife zu entfernen. Dieser Skill kodifiziert die Muster, die solche Vorfaelle verhindern.
Die agentische Schleife instrumentieren, um Token-Verbrauch an jeder Ausfuehrungsgrenze zu protokollieren.
Fuer jeden Zyklus (Heartbeat, Poll, Aufgabenausfuehrung) erfassen:
Diese in einem strukturierten Log speichern (JSON-Zeilen, CSV oder Datenbank) — nicht im Kontextfenster selbst:
{"cycle": 47, "ts": "2026-03-12T14:30:00Z", "trigger": "heartbeat",
"input_tokens": 18420, "output_tokens": 2105, "cost_usd": 0.0891,
"cumulative_cost_usd": 3.42}
Wenn das System keine Instrumentierung hat, aus API-Abrechnung schaetzen:
Erwartet: Ein Log mit Token-Anzahlen und Kosten pro Zyklus, mit ausreichender Granularitaet, um teure Zyklen zu identifizieren. Das Log selbst liegt ausserhalb des Kontextfensters.
Bei Fehler: Wenn genaue Token-Zahlen nicht verfuegbar sind (manche APIs liefern keine Nutzungsmetadaten), Abrechnungsdashboard fuer Durchschnittswerte verwenden. Selbst grobes Tracking (Tageskosten / Tageszyklusanzahl) zeigt Trends. Wenn kein Tracking moeglich, zu Schritt 2 uebergehen und aus dem Kontext-Audit schaetzen.
Messen, was das Kontextfenster belegt, und Verbraucher nach Groesse ranken.
Den Kontext in seine Komponenten zerlegen und jede messen:
Eine Kontextbudget-Tabelle erstellen:
Kontextbudget-Audit:
+------------------------+--------+------+-----------------------------------+
| Komponente | Tokens | % | Hinweise |
+------------------------+--------+------+-----------------------------------+
| Systemaufforderung | 4.200 | 21% | Beinhaltet CLAUDE.md-Kette |
| Speicher (auto-geladen)| 3.800 | 19% | MEMORY.md + 4 Themendateien |
| Tool-Schemas | 2.600 | 13% | 3 MCP-Server, 47 Tools |
| Aktives Skill-Verf. | 1.900 | 9% | Vollstaendige SKILL.md geladen |
| Konversationsverlauf | 5.100 | 25% | 12 vorherige Runden |
| Aktueller Zyklusinhalt | 2.400 | 12% | Tool-Ausgaben dieses Zyklus |
+------------------------+--------+------+-----------------------------------+
| GESAMT | 20.000 | 100% | Modellgrenze: 200.000 |
| Verbleibender Spielraum|180.000 | | |
+------------------------+--------+------+-----------------------------------+
Komponenten markieren, die im Verhaeltnis zu ihrem Entscheidungswert unverhaltsnismaessig gross sind. Eine 4.000-Token-Speicherdatei, die die aktuelle Aufgabe nie referenziert, ist reiner Overhead.
Erwartet: Eine Rangliste-Tabelle mit jedem Kontextverbraucher, seiner Groesse und seinem Prozentsatz des Fensters. Mindestens eine Komponente wird als Reduktionskandidat hervorstechen — am haeufigsten Konversationsverlauf oder ausfuehrliche Tool-Ausgaben.
Bei Fehler: Wenn genaue Token-Zahlen pro Komponente schwer zu ermitteln sind, Zeichenanzahl / 4 als Naeherung fuer englischen Text verwenden. Fuer strukturierte Daten (JSON, YAML) Zeichenanzahl / 3. Das Ziel ist relatives Ranking, nicht exakte Messung.
Weiche und harte Grenzen definieren und angeben, was bei Erreichen jeder passiert.
Weiche Grenze (Warnungsschwelle): typischerweise 60–75 % der harten Grenze. Bei Erreichen:
Harte Grenze (Stoppschwelle): die absolute maximale Ausgabe oder Kontextgroesse. Bei Erreichen:
Zyklusobergrenze: maximale Tokens oder Kosten fuer einen einzelnen Zyklus. Verhindert, dass ein einzelner ausser Kontrolle geratener Zyklus das gesamte Budget verbraucht:
Obergrenzen in der Workflow-Konfiguration dokumentieren:
token_budget:
soft_limit_usd: 5.00 # warnen und Pruning beginnen
hard_limit_usd: 10.00 # anhalten und alarmieren
per_cycle_cap_usd: 0.50 # max pro einzelnem Zyklus
soft_limit_pct: 70 # % des Kontextfensters, das Pruning ausloest
hard_limit_pct: 90 # % des Kontextfensters, das Halt ausloest
enforcement: strict # strict = bei harter Grenze anhalten; advisory = nur protokollieren
alert_channel: notification # Benachrichtigungskanal fuer Operator
Erwartet: Dokumentierte Budgetobergrenzen auf drei Ebenen (weich, hart, pro Zyklus) mit expliziten Durchsetzungsaktionen fuer jede. Die Richtlinie beantwortet "Was passiert, wenn wir die Grenze erreichen?" — bevor die Grenze erreicht wird.
Bei Fehler: Wenn genaue Dollar-Limits verfrueht sind (neuer Workflow mit unbekanntem Kostenprofil), zuerst nur mit Kontextprozentsatz-Limits beginnen (weich bei 70 %, hart bei 90 %) und Dollar-Limits nach 24–48 Stunden Kostendaten hinzufuegen. Beratungsmodus (protokollieren, aber nicht anhalten) ist waehrend der Kalibrierungsphase akzeptabel.
Beim Naehern an Grenzen geringwertigen Kontext systematisch entfernen, um im Budget zu bleiben.
Pruning-Prioritaetsreihenfolge (zuerst geringsten Wert entfernen):
Fuer jedes gepruntete Element einen einzeiligen Grabstein erhalten:
[GEPRUNED: 2.400 Tokens npm-Audit-Ausgabe aus Zyklus 12 — 3 Sicherheitsluecken gefunden, alle behoben]
Der Grabstein kostet ~20 Tokens, bewahrt aber die entscheidungsrelevante Schlussfolgerung.
Erwartet: Kontextfenster-Nutzung faellt nach dem Pruning unter die weiche Grenze. Jedes gepruntete Element hat einen Grabstein, der seine Schlussfolgerung bewahrt. Keine entscheidungskritischen Informationen gehen verloren — nur die Belege hinter bereits getroffenen Entscheidungen.
Bei Fehler: Wenn Pruning bis Prioritaet 4 die Nutzung noch ueber der weichen Grenze laesst, ist der Workflow grundlegend zu kontextintensiv fuer die aktuelle Zyklusfrequenz. An den menschlichen Operator eskalieren: "Kontextnutzung bei N % nach Pruning. Optionen: (a) Zyklusintervall verlaengern, (b) Umfang pro Zyklus reduzieren, (c) in Sub-Workflows aufteilen, (d) hoehere Kosten akzeptieren."
Ueber Registry-Metadaten routen, bevor vollstaendige Skill-Verfahren geladen werden — Tokens fuer Routing ausgeben, nicht fuer das Lesen.
Das Muster:
_registry.yml — ungefaehr 3–5 Zeilen, ~50 TokensDasselbe Muster auf andere grosse Kontext-Payloads anwenden:
Ohne Progressive Disclosure:
5 Kandidaten-Skills laden → 5 × 1.500 Tokens = 7.500 Tokens → 1 Skill verwenden
Mit Progressive Disclosure:
Durch 5 Registry-Eintraege routen → 5 × 50 Tokens = 250 Tokens
1 passenden Skill laden → 1 × 1.500 Tokens = 1.500 Tokens
Gesamt: 1.750 Tokens (77 % Reduktion)
Erwartet: Das Laden von Skills folgt einem zweiphasigen Muster: leichtgewichtiges Routing ueber Metadaten, dann vollstaendiges Laden nur bei bestaetiger Uebereinstimmung. Dasselbe Muster wird auf Speicher, Tool-Schemas und Dateiinhalte angewendet.
Bei Fehler: Wenn die Registry-Metadaten fuer Routing unzureichend sind (Beschreibungen zu vage, Tags fehlen), die Registry-Eintraege verbessern statt Progressive Disclosure aufzugeben. Die Loesung sind bessere Metadaten, nicht mehr Kontextladen.
Ausfuehrungsintervalle basierend auf Kostendaten festlegen, nicht nach beliebigen Zeitplaenen.
Kosten pro Stunde beim aktuellen Zyklusintervall berechnen:
cost_per_hour = avg_cost_per_cycle × cycles_per_hourMit Budget vergleichen:
hours_until_hard_limit = (hard_limit - cumulative_cost) / cost_per_hourMinimales effektives Intervall bestimmen:
Intervall anwenden:
Vorher: 30-Minuten-Heartbeat, ausfuehrliche Verarbeitung
→ 48 Zyklen/Tag × 0,09 $/Zyklus = 4,32 $/Tag
Nachher: 4-Stunden-Heartbeat, nur Benachrichtigungen
→ 6 Zyklen/Tag × 0,04 $/Zyklus = 0,24 $/Tag
→ 94 % Kostenreduktion
Erwartet: Zyklusintervall wird durch Kostendaten begruendet und passt zur Aktualisierungsrate des ueberwachten Systems. Der Intervall-Kosten-Kompromiss ist dokumentiert, damit kuenftige Anpassungen eine Ausgangsbasis haben.
Bei Fehler: Wenn das System niedrige Latenz erfordert und keine laengeren Intervalle tolerieren kann, stattdessen die Kosten pro Zyklus reduzieren (kleinere Systemaufforderungen, weniger Tool-Schemas geladen, zusammengefasster Verlauf). Die Budgetgleichung hat zwei Hebel: Haeufigkeit und Kosten pro Zyklus.
Bestaetigen, dass alle Kontrollen funktionieren und das System im Budget bleibt.
Budget-Validierungsbericht:
+--------------------------+----------+--------+
| Pruefung | Erwartet | Actual |
+--------------------------+----------+--------+
| Zyklusweises Protokoll | Vorhanden| |
| Weiche-Grenze-Warnung | Ausloest | |
| Harte-Grenze-Halt | Haelt | |
| Zyklusobergrenze | Kuerzt | |
| Progressive Disclosure | Routet | |
| Tageskosten-Projektion | < X,XX $ | |
+--------------------------+----------+--------+
Erwartet: Alle fuenf Kontrollen (Tracking, weiche Grenze, harte Grenze, Zyklusobergrenze, Progressive Disclosure) sind verifiziert und funktionieren. Kostenprojektion liegt im vorgesehenen Budget.
Bei Fehler: Wenn Kontrollen nicht ausloesen, pruefen, ob der Durchsetzungsmechanismus tatsaechlich in die Ausfuehrungsschleife eingebunden ist und nicht nur dokumentiert. Konfiguration ohne Durchsetzung ist ein Plan, keine Kontrolle. Wenn Kostenprojektion Budget ueberschreitet, zu Schritt 6 zurueckkehren und Zyklusintervall oder Kosten pro Zyklus anpassen.
assess-context — Reasoning-Kontext auf strukturelle Gesundheit bewerten; ergaenzt das Kontextfenster-Audit in Schritt 2metal — konzeptionelle Essenz aus Codebasen extrahieren; das Progressive-Disclosure-Muster gilt fuer metals Prospektionsphasechrysopoeia — Wertextraktion und Eliminierung toten Gewichts; dieselbe Wert-pro-Token-Denkweise auf Code-Ebene anwendenmanage-memory — persistente Speicherdateien organisieren und prunen; reduziert direkt die Speicherkomponente der Kontextbudgetstesting
Launch all available agents in parallel waves for open-ended hypothesis generation on problems where the correct domain is unknown. Use when facing a cross-domain problem with no clear starting point, when single-agent approaches have stalled, or when diverse perspectives are more valuable than deep expertise. Produces a ranked hypothesis set with convergence analysis and adversarial refinement.
tools
Write integration tests for a Node.js CLI application using the built-in node:test module. Covers the exec helper pattern, output assertions, filesystem state verification, cleanup hooks, JSON output parsing, error case testing, and state restoration after destructive tests. Use when adding tests to an existing CLI, testing a new command, verifying adapter behavior across frameworks, or setting up CI for a CLI tool.
development
Screen a proposed trademark for conflicts and distinctiveness before filing. Covers trademark database searches (TMview, WIPO Global Brand Database, USPTO TESS), distinctiveness analysis using the Abercrombie spectrum, likelihood of confusion assessment using DuPont factors and EUIPO relative grounds, common law rights evaluation, and goods/services overlap analysis. Produces a conflict report with a risk matrix. Use before adopting a new brand name, logo, or slogan — distinct from patent prior art search, which uses different databases, legal frameworks, and analysis methods.
tools
Scaffold a new CLI command using Commander.js with options, action handler, three output modes (human-readable, quiet, JSON), and optional ceremony variant. Covers command naming, option design, shared context patterns, error handling, and integration testing. Use when adding a command to an existing Commander.js CLI, designing a new CLI tool from scratch, or standardizing command structure across a multi-command CLI.