Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

curiositech/fine-tuning-dataset-curator

Name: fine-tuning-dataset-curator
Author: curiositech

skills/fine-tuning-dataset-curator/SKILL.md

npx skillsauth add curiositech/windags-skills fine-tuning-dataset-curator

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

Fine-Tuning Dataset Curator

Prepare, filter, deduplicate, and format high-quality datasets for supervised fine-tuning (SFT), RLHF, and DPO training of language models.

Activation Triggers

Activate on: "fine-tuning dataset", "training data preparation", "RLHF data", "DPO pairs", "SFT data", "data quality filtering", "dedup training data", "curate instruction dataset", "preference data"

NOT for: Model training loop implementation (ai-engineer), prompt optimization without fine-tuning (prompt-engineer), or general ETL pipelines (data-pipeline-engineer)

Quick Start

Define the task — What behavior should the fine-tuned model exhibit? Write 10 gold-standard examples by hand first.
Collect raw data — Scrape, export from logs, use existing datasets, or generate synthetic examples with a stronger model.
Filter and clean — Remove duplicates, low-quality entries, PII, and off-topic examples. Target quality over quantity.
Format for training — Convert to the target format: chat-ml for SFT, chosen/rejected pairs for DPO, reward signals for RLHF.
Validate — Hold out 10-15% for evaluation, verify distribution balance, run a small training test before full fine-tune.

Core Capabilities

| Domain | Technologies | Notes | |--------|-------------|-------| | Quality Filtering | fasttext classifiers, perplexity scoring, regex rules | Remove noise before it poisons the model | | Deduplication | MinHash (datasketch), exact hash, SimHash | Near-dedup critical for training stability | | Augmentation | LLM-generated paraphrases, backtranslation, persona variation | 3-5x dataset size with diversity | | Format Conversion | chat-ml, Alpaca, ShareGPT, OpenAI JSONL | Match target training framework | | PII Removal | presidio, regex, spaCy NER | Legal requirement for most training data | | RLHF/DPO Prep | Preference pair generation, reward model labeling | Chosen/rejected pairs with margin scoring |

Architecture Patterns

Pattern 1: SFT Data Curation Pipeline

Raw Sources ──→ [Extract] ──→ [Filter] ──→ [Dedup] ──→ [Augment] ──→ [Format] ──→ [Validate]
    │               │            │            │            │              │            │
  logs, docs    parse to     quality       MinHash      paraphrase    chat-ml     hold-out
  APIs, CSVs    instruction/ scoring       near-dedup   via LLM       or JSONL    eval set
                response     remove <                   persona                   distribution
                pairs        threshold                  variation                 check

# Quality filtering pipeline
import hashlib
from datasketch import MinHash, MinHashLSH

def curate_sft_dataset(raw_examples: list[dict]) -> list[dict]:
    # Step 1: Basic quality filters
    filtered = []
    for ex in raw_examples:
        instruction, response = ex["instruction"], ex["response"]
        if len(response.split()) < 10:          # Too short
            continue
        if len(response.split()) > 2000:         # Too long (likely garbage)
            continue
        if instruction.strip() == "":            # Empty instruction
            continue
        if response.count("\n") > 50:            # Excessive formatting
            continue
        filtered.append(ex)

    # Step 2: Near-deduplication with MinHash
    lsh = MinHashLSH(threshold=0.8, num_perm=128)
    deduped = []
    for i, ex in enumerate(filtered):
        mh = MinHash(num_perm=128)
        for word in ex["response"].split():
            mh.update(word.encode("utf-8"))
        if not lsh.query(mh):  # No near-duplicate found
            lsh.insert(f"doc_{i}", mh)
            deduped.append(ex)

    # Step 3: Format for training
    formatted = []
    for ex in deduped:
        formatted.append({
            "messages": [
                {"role": "user", "content": ex["instruction"]},
                {"role": "assistant", "content": ex["response"]}
            ]
        })
    return formatted

Pattern 2: DPO Preference Pair Generation

Instruction ──→ [Generate N responses] ──→ [Score/Rank] ──→ [Select Pairs]
                      │                         │                  │
                  temperature=0.8            human eval         chosen: best
                  N=4 responses per          or LLM judge       rejected: worst
                  instruction                or heuristic        margin > threshold

Output format (DPO):
{
  "prompt": "Explain quantum computing",
  "chosen": "Quantum computing uses qubits...",    # High-quality response
  "rejected": "Quantum computing is computers..."  # Lower-quality response
}

Pattern 3: Synthetic Data Augmentation

10 Gold Examples ──→ [LLM Generator] ──→ [Quality Filter] ──→ 500 Examples
                          │                      │
                     "Generate 50            remove duplicates,
                      variations of          score perplexity,
                      this instruction       human spot-check
                      with different          10% sample
                      personas and
                      complexity levels"

Anti-Patterns

Quantity over quality — 1,000 high-quality examples outperform 50,000 noisy ones. Filter aggressively; a model trained on garbage outputs garbage.
No deduplication — Duplicate or near-duplicate examples cause the model to memorize specific phrasings instead of learning patterns. Always dedup.
Ignoring distribution balance — If 80% of your data is one category, the model will be biased. Track category distribution and balance or weight accordingly.
Training on the eval set — Accidentally including test examples in training data produces inflated metrics. Deduplicate between train/eval splits.
Skipping PII removal — Training on data with real names, emails, and phone numbers bakes PII into model weights. Use presidio or spaCy NER to scrub before training.

Quality Checklist

[ ] Gold-standard examples written by hand (minimum 10) before scaling
[ ] Raw data filtered: minimum response length, maximum length, non-empty instructions
[ ] Near-deduplication applied (MinHash threshold 0.8 or tighter)
[ ] Train/eval split with deduplication across splits (no leakage)
[ ] PII removed from all examples (names, emails, phone numbers, addresses)
[ ] Distribution balanced across categories/topics (or intentionally weighted)
[ ] Format matches target training framework (chat-ml, Alpaca, OpenAI JSONL)
[ ] Augmented data quality-checked via spot-sampling (10% human review)
[ ] DPO pairs have sufficient quality margin between chosen and rejected
[ ] Final dataset stats documented: size, categories, avg tokens, quality score distribution

curiositech/fine-tuning-dataset-curator

skills/fine-tuning-dataset-curator/SKILL.md

Prepare high-quality datasets for LLM fine-tuning with filtering, deduplication, augmentation, and RLHF data formatting. Activate on: fine-tuning data, training data curation, RLHF dataset, data quality filtering, SFT dataset. NOT for: model training infrastructure (ai-engineer), prompt engineering without fine-tuning (prompt-engineer).

development

Updated Apr 4, 2026

$ install --global

skillsauth

npx skillsauth add curiositech/windags-skills fine-tuning-dataset-curator

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 4, 2026, 2:14 PM17.8s1 file scanned

SKILL.md

license:: Apache-2.0
name:: fine-tuning-dataset-curator
description:: Prepare high-quality datasets for LLM fine-tuning with filtering, deduplication, augmentation, and RLHF data formatting. Activate on: fine-tuning data, training data curation, RLHF dataset, data quality filtering, SFT dataset. NOT for: model training infrastructure (ai-engineer), prompt engineering without fine-tuning (prompt-engineer).
allowed-tools:: Read,Write,Edit,Bash(python:*,pip:*,npm:*,npx:*)
category:: AI & Machine Learning
- skill:: llm-evaluation-harness
reason:: Evaluate fine-tuned model quality on curated test sets

Fine-Tuning Dataset Curator

Prepare, filter, deduplicate, and format high-quality datasets for supervised fine-tuning (SFT), RLHF, and DPO training of language models.

Activation Triggers

NOT for: Model training loop implementation (ai-engineer), prompt optimization without fine-tuning (prompt-engineer), or general ETL pipelines (data-pipeline-engineer)

Quick Start

Define the task — What behavior should the fine-tuned model exhibit? Write 10 gold-standard examples by hand first.
Collect raw data — Scrape, export from logs, use existing datasets, or generate synthetic examples with a stronger model.
Filter and clean — Remove duplicates, low-quality entries, PII, and off-topic examples. Target quality over quantity.
Format for training — Convert to the target format: chat-ml for SFT, chosen/rejected pairs for DPO, reward signals for RLHF.
Validate — Hold out 10-15% for evaluation, verify distribution balance, run a small training test before full fine-tune.

Core Capabilities

Architecture Patterns

Pattern 1: SFT Data Curation Pipeline

Raw Sources ──→ [Extract] ──→ [Filter] ──→ [Dedup] ──→ [Augment] ──→ [Format] ──→ [Validate]
    │               │            │            │            │              │            │
  logs, docs    parse to     quality       MinHash      paraphrase    chat-ml     hold-out
  APIs, CSVs    instruction/ scoring       near-dedup   via LLM       or JSONL    eval set
                response     remove <                   persona                   distribution
                pairs        threshold                  variation                 check

# Quality filtering pipeline
import hashlib
from datasketch import MinHash, MinHashLSH

def curate_sft_dataset(raw_examples: list[dict]) -> list[dict]:
    # Step 1: Basic quality filters
    filtered = []
    for ex in raw_examples:
        instruction, response = ex["instruction"], ex["response"]
        if len(response.split()) < 10:          # Too short
            continue
        if len(response.split()) > 2000:         # Too long (likely garbage)
            continue
        if instruction.strip() == "":            # Empty instruction
            continue
        if response.count("\n") > 50:            # Excessive formatting
            continue
        filtered.append(ex)

    # Step 2: Near-deduplication with MinHash
    lsh = MinHashLSH(threshold=0.8, num_perm=128)
    deduped = []
    for i, ex in enumerate(filtered):
        mh = MinHash(num_perm=128)
        for word in ex["response"].split():
            mh.update(word.encode("utf-8"))
        if not lsh.query(mh):  # No near-duplicate found
            lsh.insert(f"doc_{i}", mh)
            deduped.append(ex)

    # Step 3: Format for training
    formatted = []
    for ex in deduped:
        formatted.append({
            "messages": [
                {"role": "user", "content": ex["instruction"]},
                {"role": "assistant", "content": ex["response"]}
            ]
        })
    return formatted

Pattern 2: DPO Preference Pair Generation

Instruction ──→ [Generate N responses] ──→ [Score/Rank] ──→ [Select Pairs]
                      │                         │                  │
                  temperature=0.8            human eval         chosen: best
                  N=4 responses per          or LLM judge       rejected: worst
                  instruction                or heuristic        margin > threshold

Output format (DPO):
{
  "prompt": "Explain quantum computing",
  "chosen": "Quantum computing uses qubits...",    # High-quality response
  "rejected": "Quantum computing is computers..."  # Lower-quality response
}

Pattern 3: Synthetic Data Augmentation

10 Gold Examples ──→ [LLM Generator] ──→ [Quality Filter] ──→ 500 Examples
                          │                      │
                     "Generate 50            remove duplicates,
                      variations of          score perplexity,
                      this instruction       human spot-check
                      with different          10% sample
                      personas and
                      complexity levels"

Anti-Patterns

Quantity over quality — 1,000 high-quality examples outperform 50,000 noisy ones. Filter aggressively; a model trained on garbage outputs garbage.
No deduplication — Duplicate or near-duplicate examples cause the model to memorize specific phrasings instead of learning patterns. Always dedup.
Ignoring distribution balance — If 80% of your data is one category, the model will be biased. Track category distribution and balance or weight accordingly.
Training on the eval set — Accidentally including test examples in training data produces inflated metrics. Deduplicate between train/eval splits.
Skipping PII removal — Training on data with real names, emails, and phone numbers bakes PII into model weights. Use presidio or spaCy NER to scrub before training.

Quality Checklist

[ ] Gold-standard examples written by hand (minimum 10) before scaling
[ ] Raw data filtered: minimum response length, maximum length, non-empty instructions
[ ] Near-deduplication applied (MinHash threshold 0.8 or tighter)
[ ] Train/eval split with deduplication across splits (no leakage)
[ ] PII removed from all examples (names, emails, phone numbers, addresses)
[ ] Distribution balanced across categories/topics (or intentionally weighted)
[ ] Format matches target training framework (chat-ml, Alpaca, OpenAI JSONL)
[ ] Augmented data quality-checked via spot-sampling (10% human review)
[ ] DPO pairs have sufficient quality margin between chosen and rejected
[ ] Final dataset stats documented: size, categories, avg tokens, quality score distribution

Related Skills

curiositech/revisiting-interview-data-analysing-turn

data-ai

VerifiedTrustedCommunity

license: Apache-2.0 NOT for unrelated tasks outside this domain.

8SKILL.mdUpdated Jul 19, 2026

curiositech/revisiting-interview-data-analysing-turn

curiositech/redis-patterns-expert

development

VerifiedTrustedCommunity

Use when designing caching strategies (cache-aside, write-through, write-behind), implementing distributed locks, building rate limiters, leaderboards, real-time streams (XADD/consumer groups), pub/sub, or tuning eviction policies. Triggers: thundering-herd on cache miss, dogpile on key expiry, Redlock vs SET-NX-PX choice, sliding-window rate limiter, hot-key on a single cluster slot, big-key blowup, MULTI/EXEC across slots, KEYS in production. NOT for Redis Cluster operations/admin (different domain), embedded KV (SQLite, leveldb), in-process LRU caches, or Memcached.

8SKILL.mdUpdated Jul 19, 2026

curiositech/redis-patterns-expert

curiositech/react-server-components-boundary

tools

VerifiedTrustedCommunity

Drawing the `'use client'` boundary correctly in React Server Components apps (Next.js App Router, RSC frameworks) — leaf-pushing, slot composition, serialization rules, and environment poisoning prevention. Grounded in react.dev and Next.js 16 docs.

8SKILL.mdUpdated Jul 19, 2026

curiositech/react-server-components-boundary

curiositech/rate-limiting-strategy

development

VerifiedTrustedCommunity

Use when designing rate limiting for an API, choosing between token bucket / sliding window / leaky bucket / fixed window, implementing it in Redis, deciding edge (Cloudflare/Upstash) vs origin enforcement, sizing per-user vs per-IP vs per-endpoint quotas, returning the right 429 response with Retry-After, or fixing the boundary-burst bug in fixed-window limiters. Triggers: 429 too many requests, INCR + EXPIRE, ZADD + ZREMRANGEBYSCORE + ZCARD, X-RateLimit-Remaining header, Cloudflare WAF rate limiting rules, Upstash @upstash/ratelimit, leaky bucket shaping vs policing, distributed rate limiter consistency. NOT for DDoS mitigation specifically (different scale), CAPTCHA / bot management, full WAF design, or per-user quota billing.

8SKILL.mdUpdated Jul 19, 2026

curiositech/rate-limiting-strategy

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/curiositech/windags-skills.git

# Copy into Claude Code skills folder (global)
cp -r windags-skills/skills/fine-tuning-dataset-curator ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

curiositech/windags-skills

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT