Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

felvieira/observability-sre

Name: observability-sre
Author: felvieira

skills/20-observability-sre/SKILL.md

npx skillsauth add felvieira/claude-skills-fv observability-sre

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

Observability SRE

O Observability SRE garante que o sistema seja operavel, monitoravel e recuperavel em producao.

Runtime Feedback Sensors (v2.7.0+)

Inspiração: Birgitta Böckeler (Thoughtworks) — "What runtime feedback could agents be monitoring? (e.g. having them look for degrading SLOs to make suggestions, or AI judges continuously sampling response quality and flagging log anomalies)". Ver docs/inspiration/harness-engineering.md + policies/harness-categories.md.

Esta skill agora também trata runtime feedback como categoria de sensor — não só configuração de monitoring, mas uso ativo dessa telemetria pelo agente durante feature work.

O gap fechado

Antes do v2.7.0, o kit tinha apenas sensores estáticos (arquivos, hook de tool call). Não usava sinais de produção.

Birgitta lista 2 classes de runtime sensors valiosos:

SLO degradation suggestions — agente vê P95 latency degradando e sugere otimizações
AI judges continuamente — sampling de logs/responses pra flag anomalias

Quando incorporar runtime feedback

| Situação | Recomendação | |---|---| | Feature de performance crítica | ✅ Forte — incluir P95 atual como input | | Bug de produção sendo investigado | ✅ Forte — logs recentes são source-of-truth | | Refactor de código quente (alto traffic) | ✅ Médio — verificar SLO antes/depois | | Feature greenfield | 🟡 Skip — não tem telemetria ainda | | Spike/POC | 🟡 Skip — overhead | | Sem ferramenta de observability instalada | 🔴 Skip — pré-requisito ausente |

Workflow: SLO-driven feature work

1. Antes de implementar: puxar SLO atual do endpoint/feature alvo
   Datadog:    via API com DD_API_KEY + DD_APP_KEY
   Grafana:    via Grafana HTTP API
   CloudWatch: aws cloudwatch get-metric-statistics
   New Relic:  via NerdGraph API
   Honeycomb:  via Query API

2. Anotar baseline em docs/specs/<feature>.md:
   "Baseline P95: 320ms, error rate: 0.4%, throughput: 1200 rpm"

3. Implementar feature com policies/source-driven.md aplicado

4. Após deploy (canary): re-puxar SLO em 5min/30min/2h
   "Atual P95: 340ms (+6%) — dentro do budget de 10%"
   ou
   "Atual P95: 420ms (+31%) — VIOLATED budget, rollback considerado"

5. Documentar mudança no postmortem se houve impacto não previsto

Workflow: Log anomaly detection

Para apps com alto volume de logs estruturados:

1. Definir baseline de error rate por endpoint (skill 21 data-analytics ajuda)
2. Configurar log sampling pra LLM (não enviar tudo — caro):
   - 100% de errors
   - 1% de info logs
   - 10% de warnings
3. Agente periodicamente (ou via /loop --schedule daily):
   - Pull samples da última hora
   - Procura anomalias (padrões novos, spikes em error class específica)
   - Sugere investigação ou hotfix
4. Output: thread no GitHub Issues / Linear com contexto

Custo realista: LLM judge custa ~$5-20/mês pra app médio. Compare com tempo de SRE pra identificar same issues manualmente.

Workflow: Response quality sampling (apps com IA)

Para apps onde output é AI-generated (chatbots, content gen, code suggestion):

1. Sample 1% das responses (mais alto = mais caro)
2. AI judge avalia: relevância, factualidade, tom, safety
3. Se score < threshold → flagga pra revisão humana
4. Agregação semanal: "92% passaram. Top 3 padrões de falha: ..."

Anti-padrões específicos

❌ Logar payload inteiro — vaza PII, ocupa espaço, vira lixo no LLM context
❌ Polling sem cache — bate API toda invocação, viola rate limits
❌ Threshold absoluto (< 300ms) sem contexto — endpoint pesado pode ser 800ms legitimamente
❌ AI judge sem feedback humano — vira eco chamber, não calibra
❌ Sample biased (só errors) — não vê o baseline normal

Integração com outras skills

| Skill | Como integra | |---|---| | 03 (backend) | Backend implementations devem expor metrics conforme convenção desta skill | | 07 (deploy) | Deploy pipelines devem rodar smoke test pull dos SLOs pós-deploy | | 21 (data-analytics) | Eventos de produto complementam SLOs técnicos | | 24 (release-manager) | Release notes incluem snapshot de SLOs (antes/depois) | | 30 (cost-tracker) | LLM judge cost contabilizado aqui |

Roadmap derivado

v2.7.1 — scripts/pull-slo.mjs helper genérico (Datadog/Grafana/CloudWatch)
v2.7.2 — commands/check-slo.md slash command
v2.8.0 — Integração com /savings: mostrar quantas decisões foram informadas por runtime data
v2.8.0 — programs/slo-driven-feature.yml program que enforce o workflow acima

Referências

Google SRE Book (capítulos 4-5: SLOs, SLIs)
Honeycomb's Observability Engineering
policies/harness-categories.md — runtime feedback é categoria nova de sensor
policies/quality-gates.md "Keep quality left" — runtime sensors ficam mais à direita

Governanca Global

Esta skill segue GLOBAL.md, policies/execution.md, policies/handoffs.md, policies/quality-gates.md, policies/token-efficiency.md, policies/tool-safety.md, policies/stack-flexibility.md e policies/evals.md.

Para playbooks e exemplos operacionais mais detalhados, consultar docs/skill-guides/observability-sre.md apenas quando necessario.

Quando Usar

definir logs, metricas, tracing e alertas
criar health checks, readiness e estrategia de rollback
melhorar operacao de deploy, incidentes e diagnostico

Quando Nao Usar

para substituir Security, Deploy ou Backend em mudancas de dominio
para adicionar telemetria sem criterio de produto ou operacao

Entradas Esperadas

stack real do servico ou app
pontos criticos do fluxo de negocio
sinais atuais de deploy, erro, performance e operacao

Saidas Esperadas

plano de observabilidade e confiabilidade
eventos e sinais operacionais priorizados
handoff claro para Backend, Frontend, Deploy ou Documenter

Responsabilidades

Definir sinais essenciais: logs, metricas, traces e alertas
Garantir health checks, readiness e rollback praticaveis
Identificar lacunas de monitoramento e diagnostico
Reduzir ruido de telemetria e focar no que ajuda operacao real
Registrar runbooks e riscos operacionais quando necessario

Checklist Base

logs estruturados sem dados sensiveis
metricas de latencia, erro e throughput nas rotas criticas
tracing ou correlacao minima para debug entre camadas
health check e readiness separados quando fizer sentido
alertas acionaveis e sem excesso de ruido
rollback e runbook claros para incidentes principais

Evidencia de Conclusao

sinais operacionais principais definidos
lacunas e riscos priorizados
pontos de integracao com deploy e docs registrados

Handoff

Seguir policies/handoffs.md e, quando util, templates/observability-check.md, templates/risk-note.md e templates/doc-update.md.

felvieira/observability-sre

skills/20-observability-sre/SKILL.md

Skill de observabilidade e confiabilidade operacional. Use quando precisar definir logs, metricas, tracing, alertas, health checks, readiness, error budgets, rollback e operacao segura de servicos. Trigger em: "observabilidade", "observability", "SRE", "logs estruturados", "metricas", "tracing distribuido", "health check", "readiness probe", "error budget", "SLO", "alertas", "rollback seguro", "runbook operacional".

16 stars

testing

Updated May 25, 2026

$ install --global

skillsauth

npx skillsauth add felvieira/claude-skills-fv observability-sre

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: May 25, 2026, 3:22 AM317.0s1 file scanned

SKILL.md

name:: observability-sre
description:: |
Trigger em:: observabilidade", "observability", "SRE", "logs estruturados", "metricas", "tracing distribuido", "health check", "readiness probe", "error budget", "SLO", "alertas", "rollback seguro", "runbook operacional".

Observability SRE

O Observability SRE garante que o sistema seja operavel, monitoravel e recuperavel em producao.

Runtime Feedback Sensors (v2.7.0+)

Inspiração: Birgitta Böckeler (Thoughtworks) — "What runtime feedback could agents be monitoring? (e.g. having them look for degrading SLOs to make suggestions, or AI judges continuously sampling response quality and flagging log anomalies)". Ver docs/inspiration/harness-engineering.md + policies/harness-categories.md.

Esta skill agora também trata runtime feedback como categoria de sensor — não só configuração de monitoring, mas uso ativo dessa telemetria pelo agente durante feature work.

O gap fechado

Antes do v2.7.0, o kit tinha apenas sensores estáticos (arquivos, hook de tool call). Não usava sinais de produção.

Birgitta lista 2 classes de runtime sensors valiosos:

SLO degradation suggestions — agente vê P95 latency degradando e sugere otimizações
AI judges continuamente — sampling de logs/responses pra flag anomalias

Quando incorporar runtime feedback

Workflow: SLO-driven feature work

1. Antes de implementar: puxar SLO atual do endpoint/feature alvo
   Datadog:    via API com DD_API_KEY + DD_APP_KEY
   Grafana:    via Grafana HTTP API
   CloudWatch: aws cloudwatch get-metric-statistics
   New Relic:  via NerdGraph API
   Honeycomb:  via Query API

2. Anotar baseline em docs/specs/<feature>.md:
   "Baseline P95: 320ms, error rate: 0.4%, throughput: 1200 rpm"

3. Implementar feature com policies/source-driven.md aplicado

4. Após deploy (canary): re-puxar SLO em 5min/30min/2h
   "Atual P95: 340ms (+6%) — dentro do budget de 10%"
   ou
   "Atual P95: 420ms (+31%) — VIOLATED budget, rollback considerado"

5. Documentar mudança no postmortem se houve impacto não previsto

Workflow: Log anomaly detection

Para apps com alto volume de logs estruturados:

1. Definir baseline de error rate por endpoint (skill 21 data-analytics ajuda)
2. Configurar log sampling pra LLM (não enviar tudo — caro):
   - 100% de errors
   - 1% de info logs
   - 10% de warnings
3. Agente periodicamente (ou via /loop --schedule daily):
   - Pull samples da última hora
   - Procura anomalias (padrões novos, spikes em error class específica)
   - Sugere investigação ou hotfix
4. Output: thread no GitHub Issues / Linear com contexto

Custo realista: LLM judge custa ~$5-20/mês pra app médio. Compare com tempo de SRE pra identificar same issues manualmente.

Workflow: Response quality sampling (apps com IA)

Para apps onde output é AI-generated (chatbots, content gen, code suggestion):

1. Sample 1% das responses (mais alto = mais caro)
2. AI judge avalia: relevância, factualidade, tom, safety
3. Se score < threshold → flagga pra revisão humana
4. Agregação semanal: "92% passaram. Top 3 padrões de falha: ..."

Anti-padrões específicos

❌ Logar payload inteiro — vaza PII, ocupa espaço, vira lixo no LLM context
❌ Polling sem cache — bate API toda invocação, viola rate limits
❌ Threshold absoluto (< 300ms) sem contexto — endpoint pesado pode ser 800ms legitimamente
❌ AI judge sem feedback humano — vira eco chamber, não calibra
❌ Sample biased (só errors) — não vê o baseline normal

Integração com outras skills

Roadmap derivado

v2.7.1 — scripts/pull-slo.mjs helper genérico (Datadog/Grafana/CloudWatch)
v2.7.2 — commands/check-slo.md slash command
v2.8.0 — Integração com /savings: mostrar quantas decisões foram informadas por runtime data
v2.8.0 — programs/slo-driven-feature.yml program que enforce o workflow acima

Referências

Google SRE Book (capítulos 4-5: SLOs, SLIs)
Honeycomb's Observability Engineering
policies/harness-categories.md — runtime feedback é categoria nova de sensor
policies/quality-gates.md "Keep quality left" — runtime sensors ficam mais à direita

Governanca Global

Para playbooks e exemplos operacionais mais detalhados, consultar docs/skill-guides/observability-sre.md apenas quando necessario.

Quando Usar

definir logs, metricas, tracing e alertas
criar health checks, readiness e estrategia de rollback
melhorar operacao de deploy, incidentes e diagnostico

Quando Nao Usar

para substituir Security, Deploy ou Backend em mudancas de dominio
para adicionar telemetria sem criterio de produto ou operacao

Entradas Esperadas

stack real do servico ou app
pontos criticos do fluxo de negocio
sinais atuais de deploy, erro, performance e operacao

Saidas Esperadas

plano de observabilidade e confiabilidade
eventos e sinais operacionais priorizados
handoff claro para Backend, Frontend, Deploy ou Documenter

Responsabilidades

Definir sinais essenciais: logs, metricas, traces e alertas
Garantir health checks, readiness e rollback praticaveis
Identificar lacunas de monitoramento e diagnostico
Reduzir ruido de telemetria e focar no que ajuda operacao real
Registrar runbooks e riscos operacionais quando necessario

Checklist Base

logs estruturados sem dados sensiveis
metricas de latencia, erro e throughput nas rotas criticas
tracing ou correlacao minima para debug entre camadas
health check e readiness separados quando fizer sentido
alertas acionaveis e sem excesso de ruido
rollback e runbook claros para incidentes principais

Evidencia de Conclusao

sinais operacionais principais definidos
lacunas e riscos priorizados
pontos de integracao com deploy e docs registrados

Handoff

Seguir policies/handoffs.md e, quando util, templates/observability-check.md, templates/risk-note.md e templates/doc-update.md.

Related Skills

felvieira/po-feature-spec

testing

VerifiedTrustedCommunity

Skill do Product Owner para especificação de features. Use quando precisar definir requisitos de negócio, escrever user stories, critérios de aceitação, priorização de backlog, ou qualquer documento de especificação de produto. Inclui fundamento de negócio para discovery: validação de hipótese, problema vs. necessidade, MVP, modelo de monetização e métricas pirata (AARRR) como input da spec. Trigger em: "nova feature", "especificação", "user story", "requisito", "backlog", "PO", "definir escopo", "critério de aceitação", "MVP", "roadmap", "validação de hipótese", "discovery", "monetização", "pricing", "product-market fit", "métricas AARRR".

20SKILL.mdUpdated Apr 4, 2026

felvieira/po-feature-spec

felvieira/41-blog-publisher

development

VerifiedTrustedCommunity

Skill compositora que pega texto/assunto e gera post de blog HTML completo no repo {blog_repo_path} ({github_user_repo_url}), com imagens (via skill 17 fal.ai ou skill 42 Playwright screenshot), commit+push automático, retorna URL pública via GitHub Pages. Trigger em: "post no blog", "publicar post", "escrever post", "blog post", "publish blog", "gera post", "criar post", "novo post no meu blog".

19SKILL.mdUpdated May 25, 2026

felvieira/41-blog-publisher

felvieira/context-budget

tools

VerifiedTrustedCommunity

Audita o peso de contexto carregado na sessão — CLAUDE.md, agents, MCP descriptions, rules ativas, skills invocadas e histórico acumulado. Estima tokens por componente, reporta headroom disponível e emite alertas de overflow. Distinto do cost-tracker (skill 30) que rastreia tokens gastos em completions runtime. Trigger em: "contexto inchado", "context overflow", "quanto contexto estou usando", "peso do contexto", "context budget", "tokens carregados", "sessao lenta", "respostas degradadas", "headroom de contexto", "custo fixo de contexto", "overhead de rules", "overhead dos agents", "impacto do MCP no contexto", "espaco no context window", "quanto cabe no context window"

18SKILL.mdUpdated May 29, 2026

felvieira/context-budget

felvieira/research-prep

development

VerifiedTrustedCommunity

Coleta e organiza informacao tecnica multi-fonte antes de escrever docs, PRDs, ADRs ou artigos. Busca em: docs oficiais, GitHub (repos + issues), Stack Overflow, papers e blogs de referencia. Ranqueia fontes por autoridade (oficial 40% + recencia 30% + profundidade 20% + comunidade 10%). Output: memory/research/<slug>.md pronto para alimentar skill 10 (documenter), skill 01 (po-feature-spec), skill 26 (prompt-engineer) ou skill 41 (blog-publisher). Trigger em: "pesquisa tecnica", "levanta informacao", "coleta docs", "busca referencias", "preciso de fontes", "research antes de escrever", "levanta o que existe sobre", "benchmark de solucoes", "o que existe sobre X", "quero entender o estado da arte", "compara abordagens", "levanta referencias", "faz um research de", "coleta fontes sobre", "pesquisa sobre", "quero saber o que existe de", "monta um dossie tecnico", "background tecnico", "due diligence tecnica", "levantamento de alternativas".

18SKILL.mdUpdated May 29, 2026

felvieira/research-prep

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/felvieira/claude-skills-fv.git

# Copy into Claude Code skills folder (global)
cp -r claude-skills-fv/skills/20-observability-sre ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

felvieira/claude-skills-fv

16 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT