Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

nuva-lab/separate-audio

Name: separate-audio
Author: nuva-lab

skills/separate-audio/SKILL.md

npx skillsauth add nuva-lab/vibecut separate-audio

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

separate-audio

Isolate specific sounds from audio using natural language text prompts. Uses Meta's SAM-Audio model via mlx-audio for native Mac M2/M3 inference.

Capabilities

Text prompts: Describe what to extract ("man speaking", "piano", "applause")
Time span hints: Specify when target sound occurs for better isolation
Source separation: Get both the target sound and the residual (everything else)

Usage

# Extract speaker by description
python skills/separate-audio/separate.py panel.wav --prompt "man speaking" --output speaker.wav

# Extract with time hint
python skills/separate-audio/separate.py video.mp4 --prompt "applause" --span 10.5-12.0

# Save both target and residual
python skills/separate-audio/separate.py audio.wav --prompt "woman singing" --save-residual

Use Cases for Video Production

| Use Case | Prompt Example | |----------|----------------| | Extract single speaker | "man speaking about investments" | | Remove background music | Separate, keep residual | | Isolate applause | "audience applause" | | Clean panel discussion | Run multiple times with different prompts |

Programmatic Usage

from separate import separate_audio

result = separate_audio(
    audio_path="panel.wav",
    prompt="man speaking about space",
    output_path="speaker.wav",
    span=(10.5, 12.0),  # Optional time hint
)
print(result["target_path"])

Notes

Requires mlx-audio: pip install mlx-audio
Runs natively on Mac M2/M3 via MLX framework
First run downloads SAM-Audio model (~2GB)
Works best with clear, specific descriptions
Time spans help isolate sounds at specific moments

Status

This skill is implemented but not extensively tested in the main video pipeline. The primary audio workflow uses Qwen3-ForcedAligner for caption alignment. SAM-Audio is available for advanced use cases like:

Cleaning up panel discussion audio
Extracting speaker voices for analysis
Separating background noise from speech

nuva-lab/separate-audio

skills/separate-audio/SKILL.md

Text-guided audio source separation using SAM-Audio via mlx-audio

5 stars

documentation

Updated Apr 9, 2026

$ install --global

skillsauth

npx skillsauth add nuva-lab/vibecut separate-audio

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: Apr 9, 2026, 2:20 AM5.1s2 files scanned

SKILL.md

name:: separate-audio
description:: Text-guided audio source separation using SAM-Audio via mlx-audio

separate-audio

Isolate specific sounds from audio using natural language text prompts. Uses Meta's SAM-Audio model via mlx-audio for native Mac M2/M3 inference.

Capabilities

Text prompts: Describe what to extract ("man speaking", "piano", "applause")
Time span hints: Specify when target sound occurs for better isolation
Source separation: Get both the target sound and the residual (everything else)

Usage

# Extract speaker by description
python skills/separate-audio/separate.py panel.wav --prompt "man speaking" --output speaker.wav

# Extract with time hint
python skills/separate-audio/separate.py video.mp4 --prompt "applause" --span 10.5-12.0

# Save both target and residual
python skills/separate-audio/separate.py audio.wav --prompt "woman singing" --save-residual

Use Cases for Video Production

Programmatic Usage

from separate import separate_audio

result = separate_audio(
    audio_path="panel.wav",
    prompt="man speaking about space",
    output_path="speaker.wav",
    span=(10.5, 12.0),  # Optional time hint
)
print(result["target_path"])

Notes

Requires mlx-audio: pip install mlx-audio
Runs natively on Mac M2/M3 via MLX framework
First run downloads SAM-Audio model (~2GB)
Works best with clear, specific descriptions
Time spans help isolate sounds at specific moments

Status

Cleaning up panel discussion audio
Extracting speaker voices for analysis
Separating background noise from speech

Related Skills

nuva-lab/write-script

tools

VerifiedTrustedCommunity

Generate voiceover scripts in Joyce's style for video clips

5SKILL.mdUpdated Apr 9, 2026

nuva-lab/write-script

nuva-lab/voice-clone

tools

VerifiedTrustedCommunity

Clone a voice using qwen3-tts and generate speech from text

5SKILL.mdUpdated Apr 9, 2026

nuva-lab/skills/validate-media

development

VerifiedTrustedCommunity

# Validate Media Skill Pre-flight media validation and diagnostics using ffprobe. ## Purpose Check video/audio files for common issues before rendering: - Duration mismatches between video and audio tracks - Missing audio tracks - Codec compatibility - Volume levels - Potential freeze points ## Usage ```bash python skills/validate-media/validate.py <video_file> [--verbose] ``` ## Output JSON report with issues and recommendations: ```json { "file": "video.mp4", "video_duration": 35.1

5SKILL.mdUpdated Apr 9, 2026

nuva-lab/skills/validate-media

nuva-lab/transcribe-clip

tools

VerifiedTrustedCommunity

Transcribe a video clip using Gemini to get timestamped segments for captions

5SKILL.mdUpdated Apr 9, 2026

nuva-lab/transcribe-clip

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/nuva-lab/vibecut.git

# Copy into Claude Code skills folder (global)
cp -r vibecut/skills/separate-audio ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

nuva-lab/vibecut

5 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT