Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

curiositech/multimodal-embedding-generator

Name: multimodal-embedding-generator
Author: curiositech

skills/multimodal-embedding-generator/SKILL.md

npx skillsauth add curiositech/windags-skills multimodal-embedding-generator

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

Multimodal Embedding Generator

Generate unified embeddings across text, images, and audio using CLIP, SigLIP, and ImageBind for cross-modal retrieval and search.

Activation Triggers

Activate on: "multimodal search", "text-to-image search", "image-to-text retrieval", "cross-modal embeddings", "CLIP embeddings", "visual search engine", "SigLIP", "ImageBind", "find similar images by description"

NOT for: Text-only embedding and RAG (ai-engineer), image classification or object detection (computer-vision-pipeline), or image generation from text (image-generation-workflow-engine)

Quick Start

Define modalities — Which cross-modal searches do you need? Text-to-image, image-to-text, audio-to-text, or all combinations.
Select model — SigLIP for text-image (best accuracy/speed), CLIP for broad compatibility, ImageBind for 6-modality coverage.
Preprocess inputs — Resize images to model input size, tokenize text, resample audio to 16kHz.
Generate embeddings — Batch encode through the chosen model, normalize to unit vectors.
Index and search — Store in a vector DB with modality metadata, query with any modality.

Core Capabilities

| Domain | Technologies | Notes | |--------|-------------|-------| | Text-Image | SigLIP, CLIP (ViT-L/14, ViT-bigG), OpenCLIP | SigLIP preferred for 2026: better zero-shot accuracy | | 6-Modality | ImageBind (Meta) | Text, image, audio, depth, thermal, IMU | | Local Inference | transformers, open_clip, torch | GPU or MPS (Apple Silicon) | | API-Based | Voyage AI multimodal, Cohere embed-v4 | Managed, no GPU needed | | Indexing | Pinecone, Qdrant, Weaviate, pgvector | Same vector DB for all modalities |

Architecture Patterns

Pattern 1: Unified Multimodal Index

Text ──→ [SigLIP Text Encoder] ──┐
                                  ├──→ [Normalize] ──→ [Vector DB]
Image ──→ [SigLIP Vision Encoder]─┘        │              │
                                       L2 normalize    single index,
                                       to unit sphere  modality in metadata

Query (any modality) ──→ [Encode] ──→ [Vector DB Search] ──→ Results (any modality)

# SigLIP cross-modal embedding
from transformers import AutoProcessor, AutoModel
import torch

model = AutoModel.from_pretrained("google/siglip-large-patch16-384")
processor = AutoProcessor.from_pretrained("google/siglip-large-patch16-384")

def embed_image(image):
    inputs = processor(images=image, return_tensors="pt")
    with torch.no_grad():
        emb = model.get_image_features(**inputs)
    return torch.nn.functional.normalize(emb, dim=-1).squeeze().numpy()

def embed_text(text: str):
    inputs = processor(text=text, return_tensors="pt", padding=True)
    with torch.no_grad():
        emb = model.get_text_features(**inputs)
    return torch.nn.functional.normalize(emb, dim=-1).squeeze().numpy()

# Same vector space: cosine similarity works across modalities

Pattern 2: ImageBind 6-Modality Pipeline

Modalities:
  Text ───────┐
  Image ──────┤
  Audio ──────┤
  Depth ──────┼──→ [ImageBind Encoder] ──→ [Shared 1024-dim Space] ──→ [Vector DB]
  Thermal ────┤
  IMU ────────┘

Use case: "Find the video clip that sounds like this audio sample"
         Audio query → ImageBind → nearest neighbors → returns video/image/text matches

Pattern 3: Hybrid Text + Visual RAG

Document with images
    ├── Text chunks ──→ [Text Embedder] ──────────→ [Vector DB: text namespace]
    └── Figures/diagrams ──→ [SigLIP Vision] ──→ [Vector DB: image namespace]

Query ──→ [Text Embed] ──→ search text namespace ──┐
      └──→ [Vision Embed] ──→ search image namespace──┼──→ [Rerank + Fuse] ──→ Answer
                                                       │
                                                  reciprocal rank fusion

Anti-Patterns

Mixing embedding models in one index — CLIP and SigLIP produce incompatible vector spaces. Never mix models in a single collection.
Skipping normalization — Cross-modal similarity requires L2-normalized vectors. Without normalization, cosine similarity is meaningless.
Using CLIP for production without evaluating SigLIP — SigLIP (2024+) outperforms CLIP on most benchmarks with sigmoid loss. Default to SigLIP unless you need CLIP ecosystem compatibility.
Ignoring image preprocessing — Feeding raw high-res images without center-crop and resize to model input dimensions wastes compute and degrades quality.
No modality metadata — Without tagging vectors by modality, you cannot filter searches to "find images matching this text" vs "find text matching this image."

Quality Checklist

[ ] Embedding model chosen based on benchmark comparison for target domain
[ ] All vectors L2-normalized before storage
[ ] Image preprocessing matches model training config (size, crop, normalization)
[ ] Text tokenization uses the model's paired tokenizer (not a generic one)
[ ] Modality stored as metadata on each vector for filtered retrieval
[ ] Cross-modal retrieval tested: text-to-image recall@10, image-to-text recall@10
[ ] Batch embedding pipeline handles failures gracefully (retry, skip, log)
[ ] Latency profiled: embedding generation < 50ms per item on target hardware
[ ] Single embedding model per vector collection (no mixing)
[ ] Storage cost estimated: dimensions x records x 4 bytes x safety margin

curiositech/multimodal-embedding-generator

skills/multimodal-embedding-generator/SKILL.md

Generate cross-modal embeddings with CLIP, SigLIP, and ImageBind for text-image-audio search. Activate on: multimodal search, text-to-image search, cross-modal embeddings, CLIP embeddings, visual search. NOT for: text-only embeddings (ai-engineer), image classification (computer-vision-pipeline).

tools

Updated Apr 4, 2026

$ install --global

skillsauth

npx skillsauth add curiositech/windags-skills multimodal-embedding-generator

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 4, 2026, 2:15 PM4.7s1 file scanned

SKILL.md

license:: Apache-2.0
name:: multimodal-embedding-generator
description:: Generate cross-modal embeddings with CLIP, SigLIP, and ImageBind for text-image-audio search. Activate on: multimodal search, text-to-image search, cross-modal embeddings, CLIP embeddings, visual search. NOT for: text-only embeddings (ai-engineer), image classification (computer-vision-pipeline).
allowed-tools:: Read,Write,Edit,Bash(python:*,pip:*,npm:*,npx:*)
category:: AI & Machine Learning
- skill:: computer-vision-pipeline
reason:: Image preprocessing before embedding extraction

Multimodal Embedding Generator

Generate unified embeddings across text, images, and audio using CLIP, SigLIP, and ImageBind for cross-modal retrieval and search.

Activation Triggers

NOT for: Text-only embedding and RAG (ai-engineer), image classification or object detection (computer-vision-pipeline), or image generation from text (image-generation-workflow-engine)

Quick Start

Define modalities — Which cross-modal searches do you need? Text-to-image, image-to-text, audio-to-text, or all combinations.
Select model — SigLIP for text-image (best accuracy/speed), CLIP for broad compatibility, ImageBind for 6-modality coverage.
Preprocess inputs — Resize images to model input size, tokenize text, resample audio to 16kHz.
Generate embeddings — Batch encode through the chosen model, normalize to unit vectors.
Index and search — Store in a vector DB with modality metadata, query with any modality.

Core Capabilities

Architecture Patterns

Pattern 1: Unified Multimodal Index

Text ──→ [SigLIP Text Encoder] ──┐
                                  ├──→ [Normalize] ──→ [Vector DB]
Image ──→ [SigLIP Vision Encoder]─┘        │              │
                                       L2 normalize    single index,
                                       to unit sphere  modality in metadata

Query (any modality) ──→ [Encode] ──→ [Vector DB Search] ──→ Results (any modality)

# SigLIP cross-modal embedding
from transformers import AutoProcessor, AutoModel
import torch

model = AutoModel.from_pretrained("google/siglip-large-patch16-384")
processor = AutoProcessor.from_pretrained("google/siglip-large-patch16-384")

def embed_image(image):
    inputs = processor(images=image, return_tensors="pt")
    with torch.no_grad():
        emb = model.get_image_features(**inputs)
    return torch.nn.functional.normalize(emb, dim=-1).squeeze().numpy()

def embed_text(text: str):
    inputs = processor(text=text, return_tensors="pt", padding=True)
    with torch.no_grad():
        emb = model.get_text_features(**inputs)
    return torch.nn.functional.normalize(emb, dim=-1).squeeze().numpy()

# Same vector space: cosine similarity works across modalities

Pattern 2: ImageBind 6-Modality Pipeline

Modalities:
  Text ───────┐
  Image ──────┤
  Audio ──────┤
  Depth ──────┼──→ [ImageBind Encoder] ──→ [Shared 1024-dim Space] ──→ [Vector DB]
  Thermal ────┤
  IMU ────────┘

Use case: "Find the video clip that sounds like this audio sample"
         Audio query → ImageBind → nearest neighbors → returns video/image/text matches

Pattern 3: Hybrid Text + Visual RAG

Document with images
    ├── Text chunks ──→ [Text Embedder] ──────────→ [Vector DB: text namespace]
    └── Figures/diagrams ──→ [SigLIP Vision] ──→ [Vector DB: image namespace]

Query ──→ [Text Embed] ──→ search text namespace ──┐
      └──→ [Vision Embed] ──→ search image namespace──┼──→ [Rerank + Fuse] ──→ Answer
                                                       │
                                                  reciprocal rank fusion

Anti-Patterns

Mixing embedding models in one index — CLIP and SigLIP produce incompatible vector spaces. Never mix models in a single collection.
Skipping normalization — Cross-modal similarity requires L2-normalized vectors. Without normalization, cosine similarity is meaningless.
Using CLIP for production without evaluating SigLIP — SigLIP (2024+) outperforms CLIP on most benchmarks with sigmoid loss. Default to SigLIP unless you need CLIP ecosystem compatibility.
Ignoring image preprocessing — Feeding raw high-res images without center-crop and resize to model input dimensions wastes compute and degrades quality.
No modality metadata — Without tagging vectors by modality, you cannot filter searches to "find images matching this text" vs "find text matching this image."

Quality Checklist

[ ] Embedding model chosen based on benchmark comparison for target domain
[ ] All vectors L2-normalized before storage
[ ] Image preprocessing matches model training config (size, crop, normalization)
[ ] Text tokenization uses the model's paired tokenizer (not a generic one)
[ ] Modality stored as metadata on each vector for filtered retrieval
[ ] Cross-modal retrieval tested: text-to-image recall@10, image-to-text recall@10
[ ] Batch embedding pipeline handles failures gracefully (retry, skip, log)
[ ] Latency profiled: embedding generation < 50ms per item on target hardware
[ ] Single embedding model per vector collection (no mixing)
[ ] Storage cost estimated: dimensions x records x 4 bytes x safety margin

Related Skills

curiositech/revisiting-interview-data-analysing-turn

data-ai

VerifiedTrustedCommunity

license: Apache-2.0 NOT for unrelated tasks outside this domain.

8SKILL.mdUpdated Jul 19, 2026

curiositech/revisiting-interview-data-analysing-turn

curiositech/redis-patterns-expert

development

VerifiedTrustedCommunity

Use when designing caching strategies (cache-aside, write-through, write-behind), implementing distributed locks, building rate limiters, leaderboards, real-time streams (XADD/consumer groups), pub/sub, or tuning eviction policies. Triggers: thundering-herd on cache miss, dogpile on key expiry, Redlock vs SET-NX-PX choice, sliding-window rate limiter, hot-key on a single cluster slot, big-key blowup, MULTI/EXEC across slots, KEYS in production. NOT for Redis Cluster operations/admin (different domain), embedded KV (SQLite, leveldb), in-process LRU caches, or Memcached.

8SKILL.mdUpdated Jul 19, 2026

curiositech/redis-patterns-expert

curiositech/react-server-components-boundary

tools

VerifiedTrustedCommunity

Drawing the `'use client'` boundary correctly in React Server Components apps (Next.js App Router, RSC frameworks) — leaf-pushing, slot composition, serialization rules, and environment poisoning prevention. Grounded in react.dev and Next.js 16 docs.

8SKILL.mdUpdated Jul 19, 2026

curiositech/react-server-components-boundary

curiositech/rate-limiting-strategy

development

VerifiedTrustedCommunity

Use when designing rate limiting for an API, choosing between token bucket / sliding window / leaky bucket / fixed window, implementing it in Redis, deciding edge (Cloudflare/Upstash) vs origin enforcement, sizing per-user vs per-IP vs per-endpoint quotas, returning the right 429 response with Retry-After, or fixing the boundary-burst bug in fixed-window limiters. Triggers: 429 too many requests, INCR + EXPIRE, ZADD + ZREMRANGEBYSCORE + ZCARD, X-RateLimit-Remaining header, Cloudflare WAF rate limiting rules, Upstash @upstash/ratelimit, leaky bucket shaping vs policing, distributed rate limiter consistency. NOT for DDoS mitigation specifically (different scale), CAPTCHA / bot management, full WAF design, or per-user quota billing.

8SKILL.mdUpdated Jul 19, 2026

curiositech/rate-limiting-strategy

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/curiositech/windags-skills.git

# Copy into Claude Code skills folder (global)
cp -r windags-skills/skills/multimodal-embedding-generator ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

curiositech/windags-skills

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT