Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

gonzalezpazmonica/evaluations-framework

Name: evaluations-framework
Author: gonzalezpazmonica

.claude/skills/evaluations-framework/SKILL.md

npx skillsauth add gonzalezpazmonica/pm-workspace evaluations-framework

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

Evaluations Framework

Descripción

Framework sistemático para evaluar la calidad de outputs de agentes, asegurando estándares de excelencia en la entrega de software.

Tipos de Evaluación

1. PBI Decomposition Quality

Evalúa la calidad de la descomposición de historias de usuario:

¿Las tareas tienen un tamaño adecuado? (Story Points 2-8)
¿Incluye todas las actividades necesarias?
¿Las estimaciones son realistas?

Rubric:

Excellent (90-100): Descomposición completa, tamaños consistentes, estimaciones precisas
Good (70-89): Descomposición adecuada con detalles menores faltantes
Fair (50-69): Tareas incompletas o mal estimadas
Poor (<50): Descomposición insuficiente o ilógica

2. Spec Generation Quality

Evalúa la calidad de especificaciones técnicas generadas:

¿Cubre criterios de aceptación completamente?
¿Es verificable y comprobable?
¿Es implementable sin ambigüedades?

Rubric:

Excellent (90-100): Especificación clara, completa, verificable
Good (70-89): Especificación adecuada con gaps menores
Fair (50-69): Ambigüedades significativas, algunos criterios faltantes
Poor (<50): Especificación incompleta o confusa

3. Estimation Accuracy

Evalúa la precisión de estimaciones tras finalizar sprints:

Comparación: horas predichas vs. horas reales
Análisis de desviaciones por tipo de tarea
Tendencias históricas

Rubric:

Excellent (90-100): Desviación <10%
Good (70-89): Desviación 10-20%
Fair (50-69): Desviación 20-35%
Poor (<50): Desviación >35%

4. Review Thoroughness

Evalúa la calidad de revisiones de código/requisitos:

Cantidad de issues encontrados vs. missed
Cobertura de áreas críticas
Profundidad del análisis

Rubric:

Excellent (90-100): >90% issues detectados, análisis profundo
Good (70-89): 70-90% issues detectados
Fair (50-69): 50-70% issues detectados
Poor (<50): <50% issues detectados

5. Assignment Quality

Evalúa si las tareas se asignaron a personas idóneas:

¿Coincide experiencia con complejidad?
¿Hay oportunidades de crecimiento?
¿Están balanceadas las cargas?

Rubric:

Excellent (90-100): Asignación óptima, desarrollo continuo
Good (70-89): Asignación apropiada
Fair (50-69): Algunos mismatches
Poor (<50): Múltiples mismatches graves

Proceso de Evaluación

Define eval set: Selecciona items a evaluar (PBIs, specs, sprints, etc.)
Run agent: Ejecuta el agente o process a evaluar
Score outputs: Aplica rubric correspondiente
Analyze patterns: Identifica tendencias y áreas de mejora
Improve: Ajusta prompts, skills, procesos

Almacenamiento

Evaluaciones se guardan en:

data/evals/{eval-name}/
├── config.json (definición y rubric)
├── results/
│   └── {timestamp}.json (scores, feedback)
└── trends/
    └── {eval-name}-trends.json (análisis histórico)

Automatización

Scheduled runs: Ejecutarse en horarios definidos
Trend analysis: Detectar patrones a lo largo del tiempo
Regression detection: Alertas si scores caen >10%
Reports: Generación automática de reportes

Integración

Las evaluaciones se integran con el workflow de sprints, refinamiento y planning para mejora continua basada en datos.

gonzalezpazmonica/evaluations-framework

.claude/skills/evaluations-framework/SKILL.md

Evaluations Framework

33 stars

development

Updated Apr 16, 2026

$ install --global

skillsauth

npx skillsauth add gonzalezpazmonica/pm-workspace evaluations-framework

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 16, 2026, 2:40 AM4.7s2 files scanned

SKILL.md

name:: evaluations-framework
description:: Evaluations Framework
summary:: |
Tipos:: PBI quality, spec quality, estimation accuracy.
Output:: scores por criterio + tendencias + alertas regresion.
maturity:: beta
category:: reporting
tags:: ["evaluations", "quality", "g-eval", "scoring"]
priority:: medium

Evaluations Framework

Descripción

Framework sistemático para evaluar la calidad de outputs de agentes, asegurando estándares de excelencia en la entrega de software.

Tipos de Evaluación

1. PBI Decomposition Quality

Evalúa la calidad de la descomposición de historias de usuario:

¿Las tareas tienen un tamaño adecuado? (Story Points 2-8)
¿Incluye todas las actividades necesarias?
¿Las estimaciones son realistas?

Rubric:

Excellent (90-100): Descomposición completa, tamaños consistentes, estimaciones precisas
Good (70-89): Descomposición adecuada con detalles menores faltantes
Fair (50-69): Tareas incompletas o mal estimadas
Poor (<50): Descomposición insuficiente o ilógica

2. Spec Generation Quality

Evalúa la calidad de especificaciones técnicas generadas:

¿Cubre criterios de aceptación completamente?
¿Es verificable y comprobable?
¿Es implementable sin ambigüedades?

Rubric:

Excellent (90-100): Especificación clara, completa, verificable
Good (70-89): Especificación adecuada con gaps menores
Fair (50-69): Ambigüedades significativas, algunos criterios faltantes
Poor (<50): Especificación incompleta o confusa

3. Estimation Accuracy

Evalúa la precisión de estimaciones tras finalizar sprints:

Comparación: horas predichas vs. horas reales
Análisis de desviaciones por tipo de tarea
Tendencias históricas

Rubric:

Excellent (90-100): Desviación <10%
Good (70-89): Desviación 10-20%
Fair (50-69): Desviación 20-35%
Poor (<50): Desviación >35%

4. Review Thoroughness

Evalúa la calidad de revisiones de código/requisitos:

Cantidad de issues encontrados vs. missed
Cobertura de áreas críticas
Profundidad del análisis

Rubric:

Excellent (90-100): >90% issues detectados, análisis profundo
Good (70-89): 70-90% issues detectados
Fair (50-69): 50-70% issues detectados
Poor (<50): <50% issues detectados

5. Assignment Quality

Evalúa si las tareas se asignaron a personas idóneas:

¿Coincide experiencia con complejidad?
¿Hay oportunidades de crecimiento?
¿Están balanceadas las cargas?

Rubric:

Excellent (90-100): Asignación óptima, desarrollo continuo
Good (70-89): Asignación apropiada
Fair (50-69): Algunos mismatches
Poor (<50): Múltiples mismatches graves

Proceso de Evaluación

Define eval set: Selecciona items a evaluar (PBIs, specs, sprints, etc.)
Run agent: Ejecuta el agente o process a evaluar
Score outputs: Aplica rubric correspondiente
Analyze patterns: Identifica tendencias y áreas de mejora
Improve: Ajusta prompts, skills, procesos

Almacenamiento

Evaluaciones se guardan en:

data/evals/{eval-name}/
├── config.json (definición y rubric)
├── results/
│   └── {timestamp}.json (scores, feedback)
└── trends/
    └── {eval-name}-trends.json (análisis histórico)

Automatización

Scheduled runs: Ejecutarse en horarios definidos
Trend analysis: Detectar patrones a lo largo del tiempo
Regression detection: Alertas si scores caen >10%
Reports: Generación automática de reportes

Integración

Las evaluaciones se integran con el workflow de sprints, refinamiento y planning para mejora continua basada en datos.

Related Skills

gonzalezpazmonica/skill-creator

testing

VerifiedTrustedCommunity

Create new skills, modify and improve existing skills, and measure skill performance. Use when users want to create a skill from scratch, edit, or optimize an existing skill, run evals to test a skill, benchmark skill performance with variance analysis, or optimize a skill's description for better triggering accuracy.

40SKILL.mdUpdated May 24, 2026

gonzalezpazmonica/skill-creator

gonzalezpazmonica/mcp-builder

tools

VerifiedTrustedCommunity

Guide for creating high-quality MCP (Model Context Protocol) servers that enable LLMs to interact with external services through well-designed tools. Use when building MCP servers to integrate external APIs or services, whether in Python (FastMCP) or Node/TypeScript (MCP SDK).

40SKILL.mdUpdated May 24, 2026

gonzalezpazmonica/mcp-builder

gonzalezpazmonica/wellbeing-guardian

tools

VerifiedTrustedCommunity

Sistema proactivo de bienestar individual

33SKILL.mdUpdated Apr 17, 2026

gonzalezpazmonica/wellbeing-guardian

gonzalezpazmonica/web-research

development

VerifiedTrustedCommunity

Search the web to resolve context gaps — documentation, versions, CVEs, best practices. Auto-starts SearxNG Docker if available, falls back to WebSearch.

33SKILL.mdUpdated Apr 17, 2026

gonzalezpazmonica/web-research

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/gonzalezpazmonica/pm-workspace.git

# Copy into Claude Code skills folder (global)
cp -r pm-workspace/.claude/skills/evaluations-framework ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

gonzalezpazmonica/pm-workspace

33 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT