Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

Heldinhow/rag-patterns

Name: rag-patterns
Author: Heldinhow

rag-patterns/SKILL.md

npx skillsauth add Heldinhow/awesome-opencode-dev-skills rag-patterns

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

RAG Patterns (Retrieval-Augmented Generation)

Core Architecture

User Query
    ↓
[Embed query] → vector
    ↓
[Vector DB search] → top-k relevant chunks
    ↓
[Build prompt: system + context chunks + user query]
    ↓
[LLM generate] → answer grounded in retrieved docs

Step 1: Document Ingestion Pipeline

import { openai } from '@ai-sdk/openai'
import { embedMany } from 'ai'

async function ingestDocument(text: string, metadata: Record<string, any>) {
  // 1. Chunk the document
  const chunks = chunkText(text, { size: 512, overlap: 64 })

  // 2. Embed each chunk
  const { embeddings } = await embedMany({
    model: openai.embedding('text-embedding-3-small'),
    values: chunks,
  })

  // 3. Store in vector DB
  await vectorDB.upsert(
    chunks.map((chunk, i) => ({
      id: `${metadata.docId}-${i}`,
      values: embeddings[i],
      metadata: { ...metadata, text: chunk },
    }))
  )
}

Step 2: Text Chunking Strategies

function chunkText(text: string, options: { size: number; overlap: number }) {
  const { size, overlap } = options
  const chunks: string[] = []
  let start = 0

  while (start < text.length) {
    const end = start + size
    chunks.push(text.slice(start, end))
    start += size - overlap
  }

  return chunks
}

// Strategy selection:
// - Fixed-size chunks (512 tokens) → general purpose
// - Sentence/paragraph splitting → better coherence
// - Recursive text splitting → handles code, markdown
// - Semantic chunking → split at topic boundaries (advanced)

Step 3: Query + Retrieval

import { embed } from 'ai'

async function retrieve(query: string, topK = 5) {
  // Embed the query
  const { embedding } = await embed({
    model: openai.embedding('text-embedding-3-small'),
    value: query,
  })

  // Search vector DB
  const results = await vectorDB.query({
    vector: embedding,
    topK,
    includeMetadata: true,
  })

  return results.matches
    .filter(m => m.score > 0.75) // relevance threshold
    .map(m => m.metadata.text as string)
}

Step 4: Augmented Generation

import { generateText } from 'ai'

async function ragQuery(userQuestion: string) {
  const contextChunks = await retrieve(userQuestion)

  const context = contextChunks.join('\n\n---\n\n')

  const { text } = await generateText({
    model: openai('gpt-4o-mini'),
    system: `You are a helpful assistant. Answer questions based ONLY on the provided context.
If the context doesn't contain enough information, say so — do not make up answers.

Context:
${context}`,
    prompt: userQuestion,
  })

  return text
}

Advanced Patterns

Hybrid Search (vector + keyword)

// Combine semantic + BM25/full-text for better recall
const [semanticResults, keywordResults] = await Promise.all([
  vectorDB.query({ vector: embedding, topK: 10 }),
  db.fullTextSearch(query, { limit: 10 }),
])
// Re-rank combined results with RRF or cross-encoder

Query Rewriting

// Improve retrieval by rewriting ambiguous queries
const rewrittenQuery = await generateText({
  model: openai('gpt-4o-mini'),
  prompt: `Rewrite this question to be more specific for document search: "${userQuestion}"`,
})

Multi-Query Retrieval

// Generate multiple query variants and merge results
const queries = await generateQueries(userQuestion) // 3-5 variants
const allResults = await Promise.all(queries.map(retrieve))
const deduped = deduplicateByContent(allResults.flat())

Contextual Compression

// After retrieval, compress chunks to only relevant sentences
const compressed = await compressContext(chunks, userQuestion)

Evaluation Metrics

Faithfulness: Does the answer stay grounded in context?
Answer relevance: Does the answer address the question?
Context recall: Did retrieval find the right chunks?
Context precision: Are retrieved chunks relevant (no noise)?

Common Pitfalls

Chunks too large → dilute relevance signal
Chunks too small → lose context needed for coherent answers
No overlap between chunks → truncated sentences at boundaries
No relevance threshold → low-quality context degrades answers
Embedding mismatch → use same model for ingestion and query

Heldinhow/rag-patterns

rag-patterns/SKILL.md

Use when building Retrieval-Augmented Generation (RAG) systems, chatbots with document context, semantic search, or AI apps that query a knowledge base before generating responses.

2 stars

development

Updated Apr 22, 2026

$ install --global

skillsauth

npx skillsauth add Heldinhow/awesome-opencode-dev-skills rag-patterns

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 22, 2026, 7:39 AM112.1s1 file scanned

SKILL.md

name:: rag-patterns
description:: Use when building Retrieval-Augmented Generation (RAG) systems, chatbots with document context, semantic search, or AI apps that query a knowledge base before generating responses.

RAG Patterns (Retrieval-Augmented Generation)

Core Architecture

User Query
    ↓
[Embed query] → vector
    ↓
[Vector DB search] → top-k relevant chunks
    ↓
[Build prompt: system + context chunks + user query]
    ↓
[LLM generate] → answer grounded in retrieved docs

Step 1: Document Ingestion Pipeline

import { openai } from '@ai-sdk/openai'
import { embedMany } from 'ai'

async function ingestDocument(text: string, metadata: Record<string, any>) {
  // 1. Chunk the document
  const chunks = chunkText(text, { size: 512, overlap: 64 })

  // 2. Embed each chunk
  const { embeddings } = await embedMany({
    model: openai.embedding('text-embedding-3-small'),
    values: chunks,
  })

  // 3. Store in vector DB
  await vectorDB.upsert(
    chunks.map((chunk, i) => ({
      id: `${metadata.docId}-${i}`,
      values: embeddings[i],
      metadata: { ...metadata, text: chunk },
    }))
  )
}

Step 2: Text Chunking Strategies

function chunkText(text: string, options: { size: number; overlap: number }) {
  const { size, overlap } = options
  const chunks: string[] = []
  let start = 0

  while (start < text.length) {
    const end = start + size
    chunks.push(text.slice(start, end))
    start += size - overlap
  }

  return chunks
}

// Strategy selection:
// - Fixed-size chunks (512 tokens) → general purpose
// - Sentence/paragraph splitting → better coherence
// - Recursive text splitting → handles code, markdown
// - Semantic chunking → split at topic boundaries (advanced)

Step 3: Query + Retrieval

import { embed } from 'ai'

async function retrieve(query: string, topK = 5) {
  // Embed the query
  const { embedding } = await embed({
    model: openai.embedding('text-embedding-3-small'),
    value: query,
  })

  // Search vector DB
  const results = await vectorDB.query({
    vector: embedding,
    topK,
    includeMetadata: true,
  })

  return results.matches
    .filter(m => m.score > 0.75) // relevance threshold
    .map(m => m.metadata.text as string)
}

Step 4: Augmented Generation

import { generateText } from 'ai'

async function ragQuery(userQuestion: string) {
  const contextChunks = await retrieve(userQuestion)

  const context = contextChunks.join('\n\n---\n\n')

  const { text } = await generateText({
    model: openai('gpt-4o-mini'),
    system: `You are a helpful assistant. Answer questions based ONLY on the provided context.
If the context doesn't contain enough information, say so — do not make up answers.

Context:
${context}`,
    prompt: userQuestion,
  })

  return text
}

Advanced Patterns

Hybrid Search (vector + keyword)

// Combine semantic + BM25/full-text for better recall
const [semanticResults, keywordResults] = await Promise.all([
  vectorDB.query({ vector: embedding, topK: 10 }),
  db.fullTextSearch(query, { limit: 10 }),
])
// Re-rank combined results with RRF or cross-encoder

Query Rewriting

// Improve retrieval by rewriting ambiguous queries
const rewrittenQuery = await generateText({
  model: openai('gpt-4o-mini'),
  prompt: `Rewrite this question to be more specific for document search: "${userQuestion}"`,
})

Multi-Query Retrieval

// Generate multiple query variants and merge results
const queries = await generateQueries(userQuestion) // 3-5 variants
const allResults = await Promise.all(queries.map(retrieve))
const deduped = deduplicateByContent(allResults.flat())

Contextual Compression

// After retrieval, compress chunks to only relevant sentences
const compressed = await compressContext(chunks, userQuestion)

Evaluation Metrics

Faithfulness: Does the answer stay grounded in context?
Answer relevance: Does the answer address the question?
Context recall: Did retrieval find the right chunks?
Context precision: Are retrieved chunks relevant (no noise)?

Common Pitfalls

Chunks too large → dilute relevance signal
Chunks too small → lose context needed for coherent answers
No overlap between chunks → truncated sentences at boundaries
No relevance threshold → low-quality context degrades answers
Embedding mismatch → use same model for ingestion and query

Related Skills

Heldinhow/websocket-real-time

tools

VerifiedTrustedCommunity

Implement WebSocket communication for real-time bidirectional client-server communication.

2SKILL.mdUpdated Apr 24, 2026

Heldinhow/websocket-real-time

Heldinhow/webhook-handler

development

VerifiedTrustedCommunity

Implement webhook handlers for processing incoming events from external services.

2SKILL.mdUpdated Apr 24, 2026

Heldinhow/webhook-handler

Heldinhow/webapp-testing

development

VerifiedTrustedCommunity

Test web applications using Playwright for end-to-end browser testing.

2SKILL.mdUpdated Apr 24, 2026

Heldinhow/webapp-testing

Heldinhow/web-artifacts-builder

development

VerifiedTrustedCommunity

Build production-quality HTML artifacts using React, Tailwind CSS, and shadcn/ui.

2SKILL.mdUpdated Apr 24, 2026

Heldinhow/web-artifacts-builder

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/Heldinhow/awesome-opencode-dev-skills.git

# Copy into Claude Code skills folder (global)
cp -r awesome-opencode-dev-skills/rag-patterns ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

Heldinhow/awesome-opencode-dev-skills

2 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT