Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

kreuzberg-dev/.ai-rulez/skills/format-specific-extraction

Name: .ai-rulez/skills/format-specific-extraction
Author: kreuzberg-dev

.ai-rulez/skills/format-specific-extraction/SKILL.md

npx skillsauth add kreuzberg-dev/kreuzberg .ai-rulez/skills/format-specific-extraction

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

priority: high

Format-Specific Extraction Workflows

Office XML (DOCX/PPTX/ODT)

ZIP archive → Security validation → XML parsing → Text + tables + metadata

ZipBombValidator::new(limits).validate(&mut archive)?
Extract XML files from archive (word/document.xml, ppt/slides/*.xml, content.xml)
Parse with quick-xml::Reader (streaming) + DepthValidator + StringGrowthValidator
Extract metadata via crate::extraction::office_metadata::extract_metadata()
See: extractors/docx.rs, extractors/pptx.rs, extractors/odt.rs

PDF

Bytes → pdfium-render → Per-page text + OCR fallback → Tables → Metadata

pdfium.create_document_from_bytes(content, None)?
Check if needs OCR: config.force_ocr || !has_searchable_text()
Extract text per page, tables if config.pages enabled
Feature-gated: #[cfg(feature = "pdf")]
See: extractors/pdf/mod.rs

Archives (ZIP/TAR/7z/GZIP)

Validate → Extract metadata → Extract plaintext files only

ZipBombValidator BEFORE any extraction
Extract metadata (file list, sizes)
Extract text content from plaintext files
Use build_archive_result() helper
See: extractors/archive.rs, extraction/archive/*.rs

Structured Text (JSON/YAML/TOML/XML)

Detect format from MIME → Parse → Pretty-print → Metadata

Single StructuredExtractor handles multiple MIME types. Parse with format-specific library, pretty-print to text. See: extractors/structured.rs

Email (EML/MSG)

Parse headers → Extract body (text/html) → Process attachments

See: extraction/email.rs, extractors/email.rs

Common Helpers

| Helper | Location | Purpose | |--------|----------|---------| | office_metadata::extract_metadata() | extraction/office.rs | Office XML metadata | | cells_to_markdown() | extraction/mod.rs | Convert cell grid to GFM table | | build_archive_result() | extraction/archive/mod.rs | Standard archive result |

Adding a New Format

Add MIME type to EXT_TO_MIME in core/mime.rs
Create extractor implementing DocumentExtractor trait
Set supported_mime_types() and priority() (default: 50)
Register in extractors/mod.rs → register_default_extractors()
Feature-gate if optional: #[cfg(feature = "my-format")]
Apply security validators for user content
Add tests with fixture files

kreuzberg-dev/.ai-rulez/skills/format-specific-extraction

.ai-rulez/skills/format-specific-extraction/SKILL.md

format specific extraction

7,479 stars

development

Updated Apr 9, 2026

$ install --global

skillsauth

npx skillsauth add kreuzberg-dev/kreuzberg .ai-rulez/skills/format-specific-extraction

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 9, 2026, 3:07 AM5.3s1 file scanned

SKILL.md

description:: format specific extraction
priority:: high

priority: high

Format-Specific Extraction Workflows

Office XML (DOCX/PPTX/ODT)

ZIP archive → Security validation → XML parsing → Text + tables + metadata

ZipBombValidator::new(limits).validate(&mut archive)?
Extract XML files from archive (word/document.xml, ppt/slides/*.xml, content.xml)
Parse with quick-xml::Reader (streaming) + DepthValidator + StringGrowthValidator
Extract metadata via crate::extraction::office_metadata::extract_metadata()
See: extractors/docx.rs, extractors/pptx.rs, extractors/odt.rs

PDF

Bytes → pdfium-render → Per-page text + OCR fallback → Tables → Metadata

pdfium.create_document_from_bytes(content, None)?
Check if needs OCR: config.force_ocr || !has_searchable_text()
Extract text per page, tables if config.pages enabled
Feature-gated: #[cfg(feature = "pdf")]
See: extractors/pdf/mod.rs

Archives (ZIP/TAR/7z/GZIP)

Validate → Extract metadata → Extract plaintext files only

ZipBombValidator BEFORE any extraction
Extract metadata (file list, sizes)
Extract text content from plaintext files
Use build_archive_result() helper
See: extractors/archive.rs, extraction/archive/*.rs

Structured Text (JSON/YAML/TOML/XML)

Detect format from MIME → Parse → Pretty-print → Metadata

Single StructuredExtractor handles multiple MIME types. Parse with format-specific library, pretty-print to text. See: extractors/structured.rs

Email (EML/MSG)

Parse headers → Extract body (text/html) → Process attachments

See: extraction/email.rs, extractors/email.rs

Common Helpers

Adding a New Format

Add MIME type to EXT_TO_MIME in core/mime.rs
Create extractor implementing DocumentExtractor trait
Set supported_mime_types() and priority() (default: 50)
Register in extractors/mod.rs → register_default_extractors()
Feature-gate if optional: #[cfg(feature = "my-format")]
Apply security validators for user content
Add tests with fixture files

Related Skills

kreuzberg-dev/kreuzberg

tools

VerifiedTrustedCommunity

Extract text, tables, metadata, and images from 91+ document formats (PDF, Office, images, HTML, email, archives, academic) using Kreuzberg. Use when writing code that calls Kreuzberg APIs in Python, Node.js/TypeScript, Rust, or CLI. Covers installation, extraction (sync/async), configuration (OCR, chunking, output format), batch processing, error handling, and plugins.

7,479SKILL.mdUpdated Mar 20, 2026

kreuzberg-dev/kreuzberg

kreuzberg-dev/test-execution-patterns

testing

VerifiedTrustedCommunity

test execution patterns

7,479SKILL.mdUpdated Mar 20, 2026

kreuzberg-dev/test-execution-patterns

kreuzberg-dev/ocr-backend-management

development

VerifiedTrustedCommunity

ocr uackend management

7,479SKILL.mdUpdated Mar 20, 2026

kreuzberg-dev/ocr-backend-management

kreuzberg-dev/.ai-rulez/skills/mime-detection-routing

data-ai

VerifiedTrustedCommunity

mime detection routing

7,479SKILL.mdUpdated Mar 20, 2026

kreuzberg-dev/.ai-rulez/skills/mime-detection-routing

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/kreuzberg-dev/kreuzberg.git

# Copy into Claude Code skills folder (global)
cp -r kreuzberg/.ai-rulez/skills/format-specific-extraction ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

kreuzberg-dev/kreuzberg

7,479 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT