Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

curiositech/ai-engineer

Name: ai-engineer
Author: curiositech

skills/ai-engineer/SKILL.md

npx skillsauth add curiositech/windags-skills ai-engineer

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

AI Engineer

Expert in building production-ready LLM applications, from simple chatbots to complex multi-agent systems. Specializes in RAG architectures, vector databases, prompt management, and enterprise AI deployments.

Decision Points

RAG Component Selection

Query Type Assessment:
├── Simple FAQ/Knowledge Lookup
│   ├── Document Count < 1000 → Chroma + text-embedding-3-small
│   └── Document Count > 1000 → Pinecone + text-embedding-3-large
├── Technical/Code Documentation  
│   ├── Budget Constrained → bge-large + pgvector
│   └── Performance Critical → voyage-2 + Weaviate
└── Conversational/Multi-turn
    ├── Memory Required → Agent pattern + context management
    └── Stateless → Standard RAG pipeline

Reranking Decision:
├── Precision Critical (legal, medical) → Always use Cohere Rerank
├── Latency < 200ms → Skip reranking, tune retrieval
├── Budget Constrained → Cross-encoder (bge-reranker-large)
└── Default → Cohere Rerank with top-10 → top-3

Database Selection:
├── Existing Postgres → pgvector extension
├── Need Hybrid Search → Weaviate or Qdrant
├── Managed Service → Pinecone
└── Self-hosted/Local → Chroma or Qdrant

Model Routing Strategy

Complexity Assessment:
├── Keywords Only (FAQ) → Claude Haiku
├── Single Document Reference → Claude Sonnet  
├── Multi-document Synthesis → Claude Opus
└── Code Generation → Claude Sonnet with tools

Token Budget Check:
├── < 1K tokens → Any model
├── 1K-4K tokens → Sonnet/GPT-4
├── 4K-32K tokens → Claude Opus
└── > 32K tokens → Chunk and summarize first

Agent vs RAG Decision

Task Classification:
├── Static Knowledge Query → Pure RAG
├── Need External APIs → Agent with tools
├── Multi-step Reasoning → Agent with planning
├── Real-time Data Required → Agent with live tools
└── Simple Q&A → RAG with fallback to agent

Failure Modes

Semantic Mismatch Cascade

Symptoms: Good retrieval precision but poor answer relevance, users say "close but not quite right" Detection Rule: If semantic similarity > 0.8 but user satisfaction < 60% Root Cause: Query and document embeddings optimized for different semantic spaces Fix: Switch to domain-specific embedding model or implement query expansion with synonyms

Context Window Overflow

Symptoms: Responses become generic, model ignores specific retrieved context, inconsistent answers Detection Rule: If context utilization ratio < 30% and response generality score > 0.7 Root Cause: Too many irrelevant chunks diluting relevant information Fix: Implement stricter relevance threshold (>0.8) and dynamic context selection

Tool Hallucination Loop

Symptoms: Agent makes up API calls, references non-existent functions, infinite retry cycles Detection Rule: If tool call success rate < 50% or iteration count > max_iterations * 0.8 Root Cause: Model trained on different tool schemas than implementation Fix: Add tool validation layer and explicit error handling in agent system prompt

Embedding Drift Degradation

Symptoms: Gradual decline in retrieval quality over time, seasonal performance drops Detection Rule: If monthly average retrieval@5 drops > 10% from baseline Root Cause: Domain language evolves but embedding model remains static Fix: Implement embedding model retraining pipeline or switch to adaptive embeddings

Response Latency Creep

Symptoms: P95 latency increases gradually, user complaints about slow responses Detection Rule: If P95 response time > 2x baseline for 7 consecutive days Root Cause: Vector index degradation, context size inflation, or model endpoint saturation Fix: Implement index optimization schedule, context pruning, and multi-model load balancing

Worked Examples

Example: Customer Support Chatbot Implementation

Initial Requirements: "Build a chatbot that can answer questions about our 500-page product documentation"

Step 1: Architecture Decision

Document count: 500 pages → Use Pinecone for scalability
Query type: Mixed FAQ + troubleshooting → Hybrid search needed
Latency requirement: < 3 seconds → Include reranking but optimize

Step 2: Implementation Walkthrough

// Novice approach - would use basic similarity search
const chunks = await vectorDb.query(queryEmbedding, { topK: 5 });

// Expert approach - considers relevance thresholds
const rawChunks = await vectorDb.query(queryEmbedding, { 
  topK: 20, 
  threshold: 0.7  // Ensure minimum relevance
});

// Expert adds reranking step novice would skip
const reranked = await reranker.rank(query, rawChunks);
const finalChunks = reranked.slice(0, 3);

// Expert includes fallback handling
if (finalChunks.length === 0) {
  return await fallbackToGeneralSupport(query);
}

Step 3: Performance Optimization Discovery

Initial P95 latency: 4.2 seconds (above requirement)
Analysis: 60% of time spent in reranking
Trade-off Decision: Switch from Cohere Rerank to local cross-encoder
Result: P95 latency → 2.1 seconds, slight quality drop (92% → 89% satisfaction)
Expert Insight: For support use case, speed > perfect accuracy

Step 4: Failure Scenario Handling

Discovered 15% of queries were about features not in documentation
Novice: Would return "I don't know"
Expert: Added escalation detection and handoff to human agent

Final Architecture: Pinecone + local reranker + agent escalation = 89% automation rate at 2.1s P95

Quality Gates

[ ] Retrieval@5 accuracy > 85% on evaluation dataset
[ ] Average response latency < 3 seconds for P95
[ ] Context utilization ratio > 60% (model uses retrieved information)
[ ] Hallucination rate < 5% (responses not supported by retrieved context)
[ ] User satisfaction score > 80% over 30-day rolling window
[ ] Token cost per query < predefined budget threshold
[ ] System uptime > 99.9% excluding planned maintenance
[ ] PII detection rate > 95% (no personal info in responses)
[ ] Embedding model performance stable (no >10% monthly degradation)
[ ] Error handling covers all failure modes with graceful degradation

Not-For Boundaries

Do NOT use this skill for:

Prompt Engineering Tasks → Use prompt-engineer instead

Optimizing prompt templates and instructions
A/B testing prompt variations
Chain-of-thought prompt design

ML Model Training/Fine-tuning → Use ml-engineer instead

Training custom embedding models
Fine-tuning LLMs on domain data
Model architecture research

Data Pipeline Engineering → Use data-pipeline-engineer instead

ETL processes for training data
Data validation and cleaning workflows
Batch processing systems

Infrastructure/DevOps → Use backend-architect instead

Kubernetes deployment strategies
Database optimization and sharding
Load balancer configuration

Analytics and Monitoring Setup → Use chatbot-analytics instead

Conversation flow analysis
User behavior tracking
Performance dashboard creation

Delegate When:

Task requires deep ML expertise → ml-engineer
Focus is on conversation design → prompt-engineer
Need infrastructure scaling → backend-architect
Want usage analytics → chatbot-analytics
Building non-AI features → Relevant specialist skill

curiositech/ai-engineer

skills/ai-engineer/SKILL.md

Build production-ready LLM applications, advanced RAG systems, and intelligent agents. Implements vector search, multimodal AI, agent orchestration, and enterprise AI integrations. Use PROACTIVELY for LLM features, chatbots, AI agents, or AI-powered applications.

development

Updated Apr 4, 2026

$ install --global

skillsauth

npx skillsauth add curiositech/windags-skills ai-engineer

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 4, 2026, 1:30 PM231.2s1 file scanned

SKILL.md

license:: Apache-2.0
name:: ai-engineer
description:: Build production-ready LLM applications, advanced RAG systems, and intelligent agents. Implements vector search, multimodal AI, agent orchestration, and enterprise AI integrations. Use PROACTIVELY for LLM features, chatbots, AI agents, or AI-powered applications.
allowed-tools:: Read,Write,Edit,Glob,Grep,Bash,WebFetch,mcp__SequentialThinking__sequentialthinking
category:: AI & Machine Learning
- skill:: backend-architect
reason:: Design scalable AI service architecture

AI Engineer

Decision Points

RAG Component Selection

Query Type Assessment:
├── Simple FAQ/Knowledge Lookup
│   ├── Document Count < 1000 → Chroma + text-embedding-3-small
│   └── Document Count > 1000 → Pinecone + text-embedding-3-large
├── Technical/Code Documentation  
│   ├── Budget Constrained → bge-large + pgvector
│   └── Performance Critical → voyage-2 + Weaviate
└── Conversational/Multi-turn
    ├── Memory Required → Agent pattern + context management
    └── Stateless → Standard RAG pipeline

Reranking Decision:
├── Precision Critical (legal, medical) → Always use Cohere Rerank
├── Latency < 200ms → Skip reranking, tune retrieval
├── Budget Constrained → Cross-encoder (bge-reranker-large)
└── Default → Cohere Rerank with top-10 → top-3

Database Selection:
├── Existing Postgres → pgvector extension
├── Need Hybrid Search → Weaviate or Qdrant
├── Managed Service → Pinecone
└── Self-hosted/Local → Chroma or Qdrant

Model Routing Strategy

Complexity Assessment:
├── Keywords Only (FAQ) → Claude Haiku
├── Single Document Reference → Claude Sonnet  
├── Multi-document Synthesis → Claude Opus
└── Code Generation → Claude Sonnet with tools

Token Budget Check:
├── < 1K tokens → Any model
├── 1K-4K tokens → Sonnet/GPT-4
├── 4K-32K tokens → Claude Opus
└── > 32K tokens → Chunk and summarize first

Agent vs RAG Decision

Task Classification:
├── Static Knowledge Query → Pure RAG
├── Need External APIs → Agent with tools
├── Multi-step Reasoning → Agent with planning
├── Real-time Data Required → Agent with live tools
└── Simple Q&A → RAG with fallback to agent

Failure Modes

Semantic Mismatch Cascade

Context Window Overflow

Tool Hallucination Loop

Embedding Drift Degradation

Response Latency Creep

Worked Examples

Example: Customer Support Chatbot Implementation

Initial Requirements: "Build a chatbot that can answer questions about our 500-page product documentation"

Step 1: Architecture Decision

Document count: 500 pages → Use Pinecone for scalability
Query type: Mixed FAQ + troubleshooting → Hybrid search needed
Latency requirement: < 3 seconds → Include reranking but optimize

Step 2: Implementation Walkthrough

// Novice approach - would use basic similarity search
const chunks = await vectorDb.query(queryEmbedding, { topK: 5 });

// Expert approach - considers relevance thresholds
const rawChunks = await vectorDb.query(queryEmbedding, { 
  topK: 20, 
  threshold: 0.7  // Ensure minimum relevance
});

// Expert adds reranking step novice would skip
const reranked = await reranker.rank(query, rawChunks);
const finalChunks = reranked.slice(0, 3);

// Expert includes fallback handling
if (finalChunks.length === 0) {
  return await fallbackToGeneralSupport(query);
}

Step 3: Performance Optimization Discovery

Initial P95 latency: 4.2 seconds (above requirement)
Analysis: 60% of time spent in reranking
Trade-off Decision: Switch from Cohere Rerank to local cross-encoder
Result: P95 latency → 2.1 seconds, slight quality drop (92% → 89% satisfaction)
Expert Insight: For support use case, speed > perfect accuracy

Step 4: Failure Scenario Handling

Discovered 15% of queries were about features not in documentation
Novice: Would return "I don't know"
Expert: Added escalation detection and handoff to human agent

Final Architecture: Pinecone + local reranker + agent escalation = 89% automation rate at 2.1s P95

Quality Gates

[ ] Retrieval@5 accuracy > 85% on evaluation dataset
[ ] Average response latency < 3 seconds for P95
[ ] Context utilization ratio > 60% (model uses retrieved information)
[ ] Hallucination rate < 5% (responses not supported by retrieved context)
[ ] User satisfaction score > 80% over 30-day rolling window
[ ] Token cost per query < predefined budget threshold
[ ] System uptime > 99.9% excluding planned maintenance
[ ] PII detection rate > 95% (no personal info in responses)
[ ] Embedding model performance stable (no >10% monthly degradation)
[ ] Error handling covers all failure modes with graceful degradation

Not-For Boundaries

Do NOT use this skill for:

Prompt Engineering Tasks → Use prompt-engineer instead

Optimizing prompt templates and instructions
A/B testing prompt variations
Chain-of-thought prompt design

ML Model Training/Fine-tuning → Use ml-engineer instead

Training custom embedding models
Fine-tuning LLMs on domain data
Model architecture research

Data Pipeline Engineering → Use data-pipeline-engineer instead

ETL processes for training data
Data validation and cleaning workflows
Batch processing systems

Infrastructure/DevOps → Use backend-architect instead

Kubernetes deployment strategies
Database optimization and sharding
Load balancer configuration

Analytics and Monitoring Setup → Use chatbot-analytics instead

Conversation flow analysis
User behavior tracking
Performance dashboard creation

Delegate When:

Task requires deep ML expertise → ml-engineer
Focus is on conversation design → prompt-engineer
Need infrastructure scaling → backend-architect
Want usage analytics → chatbot-analytics
Building non-AI features → Relevant specialist skill

Related Skills

curiositech/revisiting-interview-data-analysing-turn

data-ai

VerifiedTrustedCommunity

license: Apache-2.0 NOT for unrelated tasks outside this domain.

8SKILL.mdUpdated Jul 19, 2026

curiositech/revisiting-interview-data-analysing-turn

curiositech/redis-patterns-expert

development

VerifiedTrustedCommunity

Use when designing caching strategies (cache-aside, write-through, write-behind), implementing distributed locks, building rate limiters, leaderboards, real-time streams (XADD/consumer groups), pub/sub, or tuning eviction policies. Triggers: thundering-herd on cache miss, dogpile on key expiry, Redlock vs SET-NX-PX choice, sliding-window rate limiter, hot-key on a single cluster slot, big-key blowup, MULTI/EXEC across slots, KEYS in production. NOT for Redis Cluster operations/admin (different domain), embedded KV (SQLite, leveldb), in-process LRU caches, or Memcached.

8SKILL.mdUpdated Jul 19, 2026

curiositech/redis-patterns-expert

curiositech/react-server-components-boundary

tools

VerifiedTrustedCommunity

Drawing the `'use client'` boundary correctly in React Server Components apps (Next.js App Router, RSC frameworks) — leaf-pushing, slot composition, serialization rules, and environment poisoning prevention. Grounded in react.dev and Next.js 16 docs.

8SKILL.mdUpdated Jul 19, 2026

curiositech/react-server-components-boundary

curiositech/rate-limiting-strategy

development

VerifiedTrustedCommunity

Use when designing rate limiting for an API, choosing between token bucket / sliding window / leaky bucket / fixed window, implementing it in Redis, deciding edge (Cloudflare/Upstash) vs origin enforcement, sizing per-user vs per-IP vs per-endpoint quotas, returning the right 429 response with Retry-After, or fixing the boundary-burst bug in fixed-window limiters. Triggers: 429 too many requests, INCR + EXPIRE, ZADD + ZREMRANGEBYSCORE + ZCARD, X-RateLimit-Remaining header, Cloudflare WAF rate limiting rules, Upstash @upstash/ratelimit, leaky bucket shaping vs policing, distributed rate limiter consistency. NOT for DDoS mitigation specifically (different scale), CAPTCHA / bot management, full WAF design, or per-user quota billing.

8SKILL.mdUpdated Jul 19, 2026

curiositech/rate-limiting-strategy

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/curiositech/windags-skills.git

# Copy into Claude Code skills folder (global)
cp -r windags-skills/skills/ai-engineer ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

curiositech/windags-skills

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT