skills/20-observability-sre/SKILL.md
Skill de observabilidade e confiabilidade operacional. Use quando precisar definir logs, metricas, tracing, alertas, health checks, readiness, error budgets, rollback e operacao segura de servicos. Trigger em: "observabilidade", "observability", "SRE", "logs estruturados", "metricas", "tracing distribuido", "health check", "readiness probe", "error budget", "SLO", "alertas", "rollback seguro", "runbook operacional".
npx skillsauth add felvieira/claude-skills-fv observability-sreInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
O Observability SRE garante que o sistema seja operavel, monitoravel e recuperavel em producao.
Inspiração: Birgitta Böckeler (Thoughtworks) — "What runtime feedback could agents be monitoring? (e.g. having them look for degrading SLOs to make suggestions, or AI judges continuously sampling response quality and flagging log anomalies)". Ver
docs/inspiration/harness-engineering.md+policies/harness-categories.md.
Esta skill agora também trata runtime feedback como categoria de sensor — não só configuração de monitoring, mas uso ativo dessa telemetria pelo agente durante feature work.
Antes do v2.7.0, o kit tinha apenas sensores estáticos (arquivos, hook de tool call). Não usava sinais de produção.
Birgitta lista 2 classes de runtime sensors valiosos:
| Situação | Recomendação | |---|---| | Feature de performance crítica | ✅ Forte — incluir P95 atual como input | | Bug de produção sendo investigado | ✅ Forte — logs recentes são source-of-truth | | Refactor de código quente (alto traffic) | ✅ Médio — verificar SLO antes/depois | | Feature greenfield | 🟡 Skip — não tem telemetria ainda | | Spike/POC | 🟡 Skip — overhead | | Sem ferramenta de observability instalada | 🔴 Skip — pré-requisito ausente |
1. Antes de implementar: puxar SLO atual do endpoint/feature alvo
Datadog: via API com DD_API_KEY + DD_APP_KEY
Grafana: via Grafana HTTP API
CloudWatch: aws cloudwatch get-metric-statistics
New Relic: via NerdGraph API
Honeycomb: via Query API
2. Anotar baseline em docs/specs/<feature>.md:
"Baseline P95: 320ms, error rate: 0.4%, throughput: 1200 rpm"
3. Implementar feature com policies/source-driven.md aplicado
4. Após deploy (canary): re-puxar SLO em 5min/30min/2h
"Atual P95: 340ms (+6%) — dentro do budget de 10%"
ou
"Atual P95: 420ms (+31%) — VIOLATED budget, rollback considerado"
5. Documentar mudança no postmortem se houve impacto não previsto
Para apps com alto volume de logs estruturados:
1. Definir baseline de error rate por endpoint (skill 21 data-analytics ajuda)
2. Configurar log sampling pra LLM (não enviar tudo — caro):
- 100% de errors
- 1% de info logs
- 10% de warnings
3. Agente periodicamente (ou via /loop --schedule daily):
- Pull samples da última hora
- Procura anomalias (padrões novos, spikes em error class específica)
- Sugere investigação ou hotfix
4. Output: thread no GitHub Issues / Linear com contexto
Custo realista: LLM judge custa ~$5-20/mês pra app médio. Compare com tempo de SRE pra identificar same issues manualmente.
Para apps onde output é AI-generated (chatbots, content gen, code suggestion):
1. Sample 1% das responses (mais alto = mais caro)
2. AI judge avalia: relevância, factualidade, tom, safety
3. Se score < threshold → flagga pra revisão humana
4. Agregação semanal: "92% passaram. Top 3 padrões de falha: ..."
< 300ms) sem contexto — endpoint pesado pode ser 800ms legitimamente| Skill | Como integra | |---|---| | 03 (backend) | Backend implementations devem expor metrics conforme convenção desta skill | | 07 (deploy) | Deploy pipelines devem rodar smoke test pull dos SLOs pós-deploy | | 21 (data-analytics) | Eventos de produto complementam SLOs técnicos | | 24 (release-manager) | Release notes incluem snapshot de SLOs (antes/depois) | | 30 (cost-tracker) | LLM judge cost contabilizado aqui |
scripts/pull-slo.mjs helper genérico (Datadog/Grafana/CloudWatch)commands/check-slo.md slash command/savings: mostrar quantas decisões foram informadas por runtime dataprograms/slo-driven-feature.yml program que enforce o workflow acimapolicies/harness-categories.md — runtime feedback é categoria nova de sensorpolicies/quality-gates.md "Keep quality left" — runtime sensors ficam mais à direitaEsta skill segue GLOBAL.md, policies/execution.md, policies/handoffs.md, policies/quality-gates.md, policies/token-efficiency.md, policies/tool-safety.md, policies/stack-flexibility.md e policies/evals.md.
Para playbooks e exemplos operacionais mais detalhados, consultar docs/skill-guides/observability-sre.md apenas quando necessario.
Seguir policies/handoffs.md e, quando util, templates/observability-check.md, templates/risk-note.md e templates/doc-update.md.
testing
Skill do Product Owner para especificação de features. Use quando precisar definir requisitos de negócio, escrever user stories, critérios de aceitação, priorização de backlog, ou qualquer documento de especificação de produto. Inclui fundamento de negócio para discovery: validação de hipótese, problema vs. necessidade, MVP, modelo de monetização e métricas pirata (AARRR) como input da spec. Trigger em: "nova feature", "especificação", "user story", "requisito", "backlog", "PO", "definir escopo", "critério de aceitação", "MVP", "roadmap", "validação de hipótese", "discovery", "monetização", "pricing", "product-market fit", "métricas AARRR".
development
Skill compositora que pega texto/assunto e gera post de blog HTML completo no repo {blog_repo_path} ({github_user_repo_url}), com imagens (via skill 17 fal.ai ou skill 42 Playwright screenshot), commit+push automático, retorna URL pública via GitHub Pages. Trigger em: "post no blog", "publicar post", "escrever post", "blog post", "publish blog", "gera post", "criar post", "novo post no meu blog".
tools
Audita o peso de contexto carregado na sessão — CLAUDE.md, agents, MCP descriptions, rules ativas, skills invocadas e histórico acumulado. Estima tokens por componente, reporta headroom disponível e emite alertas de overflow. Distinto do cost-tracker (skill 30) que rastreia tokens gastos em completions runtime. Trigger em: "contexto inchado", "context overflow", "quanto contexto estou usando", "peso do contexto", "context budget", "tokens carregados", "sessao lenta", "respostas degradadas", "headroom de contexto", "custo fixo de contexto", "overhead de rules", "overhead dos agents", "impacto do MCP no contexto", "espaco no context window", "quanto cabe no context window"
development
Coleta e organiza informacao tecnica multi-fonte antes de escrever docs, PRDs, ADRs ou artigos. Busca em: docs oficiais, GitHub (repos + issues), Stack Overflow, papers e blogs de referencia. Ranqueia fontes por autoridade (oficial 40% + recencia 30% + profundidade 20% + comunidade 10%). Output: memory/research/<slug>.md pronto para alimentar skill 10 (documenter), skill 01 (po-feature-spec), skill 26 (prompt-engineer) ou skill 41 (blog-publisher). Trigger em: "pesquisa tecnica", "levanta informacao", "coleta docs", "busca referencias", "preciso de fontes", "research antes de escrever", "levanta o que existe sobre", "benchmark de solucoes", "o que existe sobre X", "quero entender o estado da arte", "compara abordagens", "levanta referencias", "faz um research de", "coleta fontes sobre", "pesquisa sobre", "quero saber o que existe de", "monta um dossie tecnico", "background tecnico", "due diligence tecnica", "levantamento de alternativas".