Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

ilyasibrahim/data-quality-standards

Name: data-quality-standards
Author: ilyasibrahim

claude-project/skills/data-engineering/data-quality-standards/SKILL.md

npx skillsauth add ilyasibrahim/claude-agents-coordination data-quality-standards

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

Data Quality Standards for Somali Dialect Classifier

Quality Dimensions

1. Completeness

All required fields present (text, label, source, timestamp)
No null or empty text fields
Labels properly assigned (Northern/Southern/Central)

2. Accuracy

Text is in Somali (not English, Arabic, or other languages)
Labels match actual dialect (validated by native speakers)
Geographic metadata aligns with dialect labels

3. Consistency

Uniform text encoding (UTF-8)
Consistent label format (standardized names)
Timestamp format standardized (ISO 8601)

4. Uniqueness

No exact duplicates
Near-duplicate detection (>95% similarity flagged)
Source URL deduplication

5. Validity

Text length within acceptable range (10-5000 characters)
No corrupted/garbled text
No HTML tags or formatting artifacts

Quality Metrics

Critical Metrics

Language Purity:

Target: >98% Somali text
Method: Language detection (langdetect, fastText)
Action: Remove non-Somali text

Duplicate Rate:

Target: <2% duplicates
Method: Exact match + fuzzy matching (Levenshtein distance)
Action: Keep first occurrence, remove duplicates

Label Confidence:

Target: >90% inter-annotator agreement
Method: Multiple annotators for sample
Action: Re-label low-confidence examples

Text Quality Score:

Target: Average score >7/10
Components: Length, vocabulary richness, grammar
Action: Filter texts with score <5

Validation Pipeline

Stage 1: Basic Validation

def basic_validation(record):
    checks = {
        'has_text': bool(record.get('text', '').strip()),
        'has_label': record.get('label') in ['Northern', 'Southern', 'Central'],
        'valid_length': 10 <= len(record.get('text', '')) <= 5000,
        'valid_encoding': is_valid_utf8(record['text'])
    }
    return all(checks.values()), checks

Stage 2: Language Detection

from langdetect import detect

def validate_language(text):
    try:
        lang = detect(text)
        return lang == 'so'  # Somali ISO code
    except:
        return False

Stage 3: Duplicate Detection

from difflib import SequenceMatcher

def is_near_duplicate(text1, text2, threshold=0.95):
    similarity = SequenceMatcher(None, text1, text2).ratio()
    return similarity >= threshold

Stage 4: Quality Scoring

def compute_quality_score(text):
    score = 0
    # Length appropriateness (1-3 points)
    if 50 <= len(text) <= 1000:
        score += 3
    elif 20 <= len(text) < 50 or 1000 < len(text) <= 3000:
        score += 2
    else:
        score += 1

    # Vocabulary richness (1-3 points)
    unique_words = len(set(text.split()))
    total_words = len(text.split())
    if total_words > 0:
        vocab_ratio = unique_words / total_words
        if vocab_ratio > 0.7:
            score += 3
        elif vocab_ratio > 0.5:
            score += 2
        else:
            score += 1

    # No HTML/formatting artifacts (1-2 points)
    if not ('<' in text or '>' in text or '{' in text):
        score += 2

    # Proper sentences (1-2 points)
    if text.count('.') >= 1:  # At least one sentence
        score += 2

    return min(score, 10)  # Cap at 10

Acceptance Criteria

Minimum Quality Thresholds

For Training Set:

Language purity: >98% Somali
Duplicate rate: <1%
Quality score: Average >7.5
Label confidence: >95%

For Validation/Test Sets:

Language purity: >99% Somali
Duplicate rate: 0% (strict)
Quality score: Average >8.0
Label confidence: >98% (manually validated)

Quality Guardrails

Automatic Filters

Remove if:
- Non-Somali language detected
- Exact duplicate found
- Text length <10 or >5000 characters
- Quality score <5
- Contains >20% numbers/special characters
Flag for review if:
- Near-duplicate (>95% similarity)
- Quality score 5-7
- Label confidence <90%
- Unusual character patterns
Accept if:
- All validation checks pass
- Quality score ≥7
- No duplicates
- Language = Somali

Quality Reporting

Metrics to Track

Dataset-Level:

Total records
Records passing validation (%)
Average quality score
Duplicate count
Language distribution (% Somali)

Per-Source:

Source name
Records contributed
Average quality score
Duplicate rate
Rejection rate

Per-Dialect:

Dialect label
Record count
Average quality score
Inter-annotator agreement

Example Report:

Dataset Quality Report - 2025-11-06

Total Records: 10,000
Passing Validation: 9,200 (92%)
Average Quality Score: 7.8/10
Duplicates Removed: 600 (6%)
Language Purity: 98.5% Somali

Per-Source Quality:
- Wikipedia: 8.5/10 (3,000 records)
- BBC Somali: 8.2/10 (2,500 records)
- Social Media: 6.9/10 (4,500 records, 30% rejected)

Per-Dialect Distribution:
- Northern: 5,500 (59.8%)
- Southern: 2,200 (23.9%)
- Central: 1,500 (16.3%)

When This Skill Activates

This skill auto-invokes when you mention:

Data quality, data validation, quality checks
Duplicates, deduplication, duplicate detection
Quality metrics, quality score, quality standards
Data cleaning, data filtering, guardrails
Language detection, language purity
Acceptance criteria, validation rules

Version: 1.0.0 Last Updated: 2025-11-06 Project: Somali Dialect Classifier

ilyasibrahim/data-quality-standards

claude-project/skills/data-engineering/data-quality-standards/SKILL.md

Data quality validation rules, quality metrics, and acceptance criteria for Somali dialect classifier datasets. Covers duplicate detection, language filtering, quality scoring, and validation protocols. Auto-invokes when discussing data quality, validation, cleaning, or quality guardrails for this project.

52 stars

testing

Updated Apr 21, 2026

$ install --global

skillsauth

npx skillsauth add ilyasibrahim/claude-agents-coordination data-quality-standards

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 30, 2026, 1:45 PM18.5s1 file scanned

SKILL.md

name:: data-quality-standards
description:: Data quality validation rules, quality metrics, and acceptance criteria for Somali dialect classifier datasets. Covers duplicate detection, language filtering, quality scoring, and validation protocols. Auto-invokes when discussing data quality, validation, cleaning, or quality guardrails for this project.
allowed-tools:: Read, Grep

Data Quality Standards for Somali Dialect Classifier

Quality Dimensions

1. Completeness

All required fields present (text, label, source, timestamp)
No null or empty text fields
Labels properly assigned (Northern/Southern/Central)

2. Accuracy

Text is in Somali (not English, Arabic, or other languages)
Labels match actual dialect (validated by native speakers)
Geographic metadata aligns with dialect labels

3. Consistency

Uniform text encoding (UTF-8)
Consistent label format (standardized names)
Timestamp format standardized (ISO 8601)

4. Uniqueness

No exact duplicates
Near-duplicate detection (>95% similarity flagged)
Source URL deduplication

5. Validity

Text length within acceptable range (10-5000 characters)
No corrupted/garbled text
No HTML tags or formatting artifacts

Quality Metrics

Critical Metrics

Language Purity:

Target: >98% Somali text
Method: Language detection (langdetect, fastText)
Action: Remove non-Somali text

Duplicate Rate:

Target: <2% duplicates
Method: Exact match + fuzzy matching (Levenshtein distance)
Action: Keep first occurrence, remove duplicates

Label Confidence:

Target: >90% inter-annotator agreement
Method: Multiple annotators for sample
Action: Re-label low-confidence examples

Text Quality Score:

Target: Average score >7/10
Components: Length, vocabulary richness, grammar
Action: Filter texts with score <5

Validation Pipeline

Stage 1: Basic Validation

def basic_validation(record):
    checks = {
        'has_text': bool(record.get('text', '').strip()),
        'has_label': record.get('label') in ['Northern', 'Southern', 'Central'],
        'valid_length': 10 <= len(record.get('text', '')) <= 5000,
        'valid_encoding': is_valid_utf8(record['text'])
    }
    return all(checks.values()), checks

Stage 2: Language Detection

from langdetect import detect

def validate_language(text):
    try:
        lang = detect(text)
        return lang == 'so'  # Somali ISO code
    except:
        return False

Stage 3: Duplicate Detection

from difflib import SequenceMatcher

def is_near_duplicate(text1, text2, threshold=0.95):
    similarity = SequenceMatcher(None, text1, text2).ratio()
    return similarity >= threshold

Stage 4: Quality Scoring

def compute_quality_score(text):
    score = 0
    # Length appropriateness (1-3 points)
    if 50 <= len(text) <= 1000:
        score += 3
    elif 20 <= len(text) < 50 or 1000 < len(text) <= 3000:
        score += 2
    else:
        score += 1

    # Vocabulary richness (1-3 points)
    unique_words = len(set(text.split()))
    total_words = len(text.split())
    if total_words > 0:
        vocab_ratio = unique_words / total_words
        if vocab_ratio > 0.7:
            score += 3
        elif vocab_ratio > 0.5:
            score += 2
        else:
            score += 1

    # No HTML/formatting artifacts (1-2 points)
    if not ('<' in text or '>' in text or '{' in text):
        score += 2

    # Proper sentences (1-2 points)
    if text.count('.') >= 1:  # At least one sentence
        score += 2

    return min(score, 10)  # Cap at 10

Acceptance Criteria

Minimum Quality Thresholds

For Training Set:

Language purity: >98% Somali
Duplicate rate: <1%
Quality score: Average >7.5
Label confidence: >95%

For Validation/Test Sets:

Language purity: >99% Somali
Duplicate rate: 0% (strict)
Quality score: Average >8.0
Label confidence: >98% (manually validated)

Quality Guardrails

Automatic Filters

Remove if:
- Non-Somali language detected
- Exact duplicate found
- Text length <10 or >5000 characters
- Quality score <5
- Contains >20% numbers/special characters
Flag for review if:
- Near-duplicate (>95% similarity)
- Quality score 5-7
- Label confidence <90%
- Unusual character patterns
Accept if:
- All validation checks pass
- Quality score ≥7
- No duplicates
- Language = Somali

Quality Reporting

Metrics to Track

Dataset-Level:

Total records
Records passing validation (%)
Average quality score
Duplicate count
Language distribution (% Somali)

Per-Source:

Source name
Records contributed
Average quality score
Duplicate rate
Rejection rate

Per-Dialect:

Dialect label
Record count
Average quality score
Inter-annotator agreement

Example Report:

Dataset Quality Report - 2025-11-06

Total Records: 10,000
Passing Validation: 9,200 (92%)
Average Quality Score: 7.8/10
Duplicates Removed: 600 (6%)
Language Purity: 98.5% Somali

Per-Source Quality:
- Wikipedia: 8.5/10 (3,000 records)
- BBC Somali: 8.2/10 (2,500 records)
- Social Media: 6.9/10 (4,500 records, 30% rejected)

Per-Dialect Distribution:
- Northern: 5,500 (59.8%)
- Southern: 2,200 (23.9%)
- Central: 1,500 (16.3%)

When This Skill Activates

This skill auto-invokes when you mention:

Data quality, data validation, quality checks
Duplicates, deduplication, duplicate detection
Quality metrics, quality score, quality standards
Data cleaning, data filtering, guardrails
Language detection, language purity
Acceptance criteria, validation rules

Version: 1.0.0 Last Updated: 2025-11-06 Project: Somali Dialect Classifier

Related Skills

ilyasibrahim/ux-writing

documentation

VerifiedTrustedCommunity

Voice, tone, and content guidelines for data/ML dashboards. Covers microcopy, error messages, success states, and data presentation language. Auto-invokes on copy, messaging, content, labels, error messages keywords.

52SKILL.mdUpdated Apr 21, 2026

ilyasibrahim/ux-writing

ilyasibrahim/design

development

VerifiedTrustedCommunity

Unified design system for data/ML dashboards. Quick reference for brand vs data color decisions, component patterns, typography, spacing. Auto-invokes on styling, CSS, design, colors, UI, visualization keywords. Tiered loading - core always, philosophy/implementation on-demand.

52SKILL.mdUpdated Apr 21, 2026

ilyasibrahim/agent-coordination

development

VerifiedTrustedCommunity

Coordination protocol for main Claude Code agent. Explicit user invocation required ("mobilize agents", "coordinate", "check registry"). Provides agent orchestration, registry management, and handoff protocols. Subagents never access this - main agent provides context in task prompts.

52SKILL.mdUpdated Apr 21, 2026

ilyasibrahim/agent-coordination

ilyasibrahim/model-evaluation-framework

development

VerifiedTrustedCommunity

Model evaluation metrics, testing protocols, and performance assessment for Somali dialect classification. Covers accuracy, F1-score, confusion matrix analysis, per-dialect performance, and evaluation best practices for multi-class classification tasks.

52SKILL.mdUpdated Apr 21, 2026

ilyasibrahim/model-evaluation-framework

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/ilyasibrahim/claude-agents-coordination.git

# Copy into Claude Code skills folder (global)
cp -r claude-agents-coordination/claude-project/skills/data-engineering/data-quality-standards ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

ilyasibrahim/claude-agents-coordination

52 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT