Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

pablodiegoo/clustering-toolkit

Name: clustering-toolkit
Author: pablodiegoo

src/datapro/data/skills/clustering-toolkit/SKILL.md

npx skillsauth add pablodiegoo/data-pro-skill clustering-toolkit

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

Clustering Toolkit Skill

This skill provides a specialized pipeline for identifying homogeneous groups within high-dimensional datasets. It combines dimensionality reduction (PCA) with density-based clustering (DBSCAN) to find natural patterns while filtering noise.

Capabilities

1. PCA+DBSCAN Grouping (`pca_dbscan_grouping`)

A hybrid pipeline that uses Principal Component Analysis to extract features and DBSCAN to group entities.

Supports hybrid features (numerical + categorical weights).
Configurable walk-forward clustering for dynamic datasets.
Automatic noise detection (outliers).

2. Basic Segmentation (`basic_clustering`)

Standard K-Means clustering pipeline for rapid entity grouping.

Automated feature scaling.
Configurable cluster count (k).
Centroid analysis for segment profiling.

3. Residual Segmentation (`residual_segmentation`)

Advanced behavioral segmentation using regression residuals (Actual vs. Predicted).

Identifies "Delighted" vs "Disappointed" segments based on unmeasured variables.
Automated distribution plotting and coefficient analysis.

4. Gower Distance Matrix (`gower_distance`)

Similarity metric for mixed data types (numerical + categorical).

Handles NaNs gracefully.
Core component for distance-based clustering when one-hot encoding is undesirable.

2. Cluster Quality Diagnostics (`dbscan_cluster_quality`)

Utilities to detect common clustering pathologies.

Giant Cluster Ratio: Detects if a single group dominates the universe (>50%).
Stability Metrics: Measures how often entities change groups over time.
Configuration Scoring: Scalar metric to rank different hyperparameter (EPS, MinSamples) setups.

Usage

from scripts.pca_dbscan_grouping import PCA_DBSCAN_Pipeline
from scripts.dbscan_cluster_quality import calculate_cluster_metrics

# 1. Run clustering pipeline
pipeline = PCA_DBSCAN_Pipeline(n_components=5, eps=0.015)
clusters = pipeline.fit_predict(df)

# 2. Diagnose quality
metrics = calculate_cluster_metrics(clusters)
if metrics['Giant_Ratio'] > 0.5:
    print("Warning: Pathological giant cluster detected. Reduce EPS.")

Best Practices

Feature Scaling: Always normalize features before PCA.
Categorical Weights: Use sector_weight (or equivalent) to balance statistical similarity with domain knowledge.
EPS Tuning: Small changes in eps can have drastic effects. Use grid_search_checkpoint for tuning.

Detailed References

Methodology: See pca_dbscan_methodology.md for pipeline, parameters, and diagnostics.

Dependencies

scikit-learn, pandas, numpy.

pablodiegoo/clustering-toolkit

src/datapro/data/skills/clustering-toolkit/SKILL.md

Advanced clustering and grouping toolkit using PCA and DBSCAN. Provides a complete pipeline for identifying homogeneous groups in high-dimensional data with built-in quality diagnostics and stability metrics. Use for: (1) Grouping similar entities (assets, products, clients) based on multi-dimensional features, (2) Principal Component Analysis for dimensionality reduction, (3) DBSCAN clustering with noise filtering, (4) Diagnosing clustering pathologies like giant cluster ratio or configuration instability.

6 stars

tools

Updated May 26, 2026

$ install --global

skillsauth

npx skillsauth add pablodiegoo/data-pro-skill clustering-toolkit

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: May 26, 2026, 6:04 AM4.3s8 files scanned

SKILL.md

name:: clustering-toolkit
description:: Advanced clustering and grouping toolkit using PCA and DBSCAN. Provides a complete pipeline for identifying homogeneous groups in high-dimensional data with built-in quality diagnostics and stability metrics. Use for: (1) Grouping similar entities (assets, products, clients) based on multi-dimensional features, (2) Principal Component Analysis for dimensionality reduction, (3) DBSCAN clustering with noise filtering, (4) Diagnosing clustering pathologies like giant cluster ratio or configuration instability.

Clustering Toolkit Skill

Capabilities

1. PCA+DBSCAN Grouping (`pca_dbscan_grouping`)

A hybrid pipeline that uses Principal Component Analysis to extract features and DBSCAN to group entities.

Supports hybrid features (numerical + categorical weights).
Configurable walk-forward clustering for dynamic datasets.
Automatic noise detection (outliers).

2. Basic Segmentation (`basic_clustering`)

Standard K-Means clustering pipeline for rapid entity grouping.

Automated feature scaling.
Configurable cluster count (k).
Centroid analysis for segment profiling.

3. Residual Segmentation (`residual_segmentation`)

Advanced behavioral segmentation using regression residuals (Actual vs. Predicted).

Identifies "Delighted" vs "Disappointed" segments based on unmeasured variables.
Automated distribution plotting and coefficient analysis.

4. Gower Distance Matrix (`gower_distance`)

Similarity metric for mixed data types (numerical + categorical).

Handles NaNs gracefully.
Core component for distance-based clustering when one-hot encoding is undesirable.

2. Cluster Quality Diagnostics (`dbscan_cluster_quality`)

Utilities to detect common clustering pathologies.

Giant Cluster Ratio: Detects if a single group dominates the universe (>50%).
Stability Metrics: Measures how often entities change groups over time.
Configuration Scoring: Scalar metric to rank different hyperparameter (EPS, MinSamples) setups.

Usage

from scripts.pca_dbscan_grouping import PCA_DBSCAN_Pipeline
from scripts.dbscan_cluster_quality import calculate_cluster_metrics

# 1. Run clustering pipeline
pipeline = PCA_DBSCAN_Pipeline(n_components=5, eps=0.015)
clusters = pipeline.fit_predict(df)

# 2. Diagnose quality
metrics = calculate_cluster_metrics(clusters)
if metrics['Giant_Ratio'] > 0.5:
    print("Warning: Pathological giant cluster detected. Reduce EPS.")

Best Practices

Feature Scaling: Always normalize features before PCA.
Categorical Weights: Use sector_weight (or equivalent) to balance statistical similarity with domain knowledge.
EPS Tuning: Small changes in eps can have drastic effects. Use grid_search_checkpoint for tuning.

Detailed References

Methodology: See pca_dbscan_methodology.md for pipeline, parameters, and diagnostics.

Dependencies

scikit-learn, pandas, numpy.

Related Skills

pablodiegoo/time-series-analysis

testing

VerifiedTrustedCommunity

Comprehensive time-series validation and analysis suite. Handles backtesting of trading and non-trading strategies with support for walk-forward validation (training vs testing windows), performance metric calculation (Sharpe, Drawdown, Win Rate), and event-driven resource allocation simulation. Use for: (1) Validating sequential logic on time-series data, (2) Calculating risk-adjusted performance, (3) Simulating constraints in resource distribution, (4) Detecting look-ahead bias through walk-forward testing.

6SKILL.mdUpdated May 26, 2026

pablodiegoo/time-series-analysis

pablodiegoo/survey-analytics

tools

VerifiedTrustedCommunity

Core statistical analysis and pipeline automation for survey datasets. Use for: (1) Running standard Crosstabs, NPS, Top-Box calculations, (2) Generating complete EDA or Analytics notebooks, (3) Quantitative and qualitative processing of questionnaire data.

6SKILL.mdUpdated May 26, 2026

pablodiegoo/survey-analytics

pablodiegoo/strategic-frameworks

development

VerifiedTrustedCommunity

Business-level frameworks and actionable reporting for executives. Use for: (1) Plotting Priority Matrices, (2) Generating Pain Curves, (3) Conversion Funnels, (4) Removing Halo Effects to uncover true sentiment.

6SKILL.mdUpdated May 26, 2026

pablodiegoo/strategic-frameworks

pablodiegoo/machine-learning-lite

testing

VerifiedTrustedCommunity

Tactical and highly interpretable Machine Learning. Use for: (1) Extracting Feature Importance via Random Forest, (2) Running Permutation Tests, (3) Handling Imbalanced Data (SMOTE).

6SKILL.mdUpdated May 26, 2026

pablodiegoo/machine-learning-lite

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/pablodiegoo/data-pro-skill.git

# Copy into Claude Code skills folder (global)
cp -r data-pro-skill/src/datapro/data/skills/clustering-toolkit ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

pablodiegoo/data-pro-skill

6 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT

Adoption

pablodiegoo/clustering-toolkit

$ install --global

Security Scan Results

SKILL.md

Clustering Toolkit Skill

Capabilities

1. PCA+DBSCAN Grouping (pca_dbscan_grouping)

2. Basic Segmentation (basic_clustering)

3. Residual Segmentation (residual_segmentation)

4. Gower Distance Matrix (gower_distance)

2. Cluster Quality Diagnostics (dbscan_cluster_quality)

Usage

Best Practices

Detailed References

Dependencies

Related Skills

pablodiegoo/time-series-analysis

pablodiegoo/survey-analytics

pablodiegoo/strategic-frameworks

pablodiegoo/machine-learning-lite

pablodiegoo/clustering-toolkit

$ install --global

Security Scan Results

SKILL.md

Clustering Toolkit Skill

Capabilities

1. PCA+DBSCAN Grouping (pca_dbscan_grouping)

2. Basic Segmentation (basic_clustering)

3. Residual Segmentation (residual_segmentation)

4. Gower Distance Matrix (gower_distance)

2. Cluster Quality Diagnostics (dbscan_cluster_quality)

Usage

Best Practices

Detailed References

Dependencies

Related Skills

pablodiegoo/time-series-analysis

pablodiegoo/survey-analytics

pablodiegoo/strategic-frameworks

pablodiegoo/machine-learning-lite

1. PCA+DBSCAN Grouping (`pca_dbscan_grouping`)

2. Basic Segmentation (`basic_clustering`)

3. Residual Segmentation (`residual_segmentation`)

4. Gower Distance Matrix (`gower_distance`)

2. Cluster Quality Diagnostics (`dbscan_cluster_quality`)

1. PCA+DBSCAN Grouping (`pca_dbscan_grouping`)

2. Basic Segmentation (`basic_clustering`)

3. Residual Segmentation (`residual_segmentation`)

4. Gower Distance Matrix (`gower_distance`)

2. Cluster Quality Diagnostics (`dbscan_cluster_quality`)