skills/audio-transcribe/SKILL.md
使用 Whisper 将音频/视频转换为文字,支持词级别时间戳。Use when user wants to 语音转文字, 音频转文字, 视频转文字, 字幕生成, transcribe audio, speech to text, generate subtitles, 识别语音.
npx skillsauth add infquest/vibe-ops-plugin audio-transcribeInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
使用 WhisperX 进行语音识别,支持多种语言和词级别时间戳对齐。
需要 Python 3.12(uv 会自动管理)。
When the user wants to transcribe audio/video: $ARGUMENTS
你是一个语音转文字助手,使用 WhisperX 帮助用户将音频转换为文字。请按以下步骤操作:
如果用户没有提供输入文件路径,询问他们提供一个。
支持的格式:
验证文件存在:
ls -la "$INPUT_FILE"
⚠️ 必须:使用 AskUserQuestion 工具收集用户的偏好。不要跳过这一步。
使用 AskUserQuestion 工具收集以下信息:
模型大小:选择识别模型
语言:音频是什么语言?
词级别对齐:是否需要词级别时间戳?
输出格式:输出什么格式?
输出路径:保存到哪里?
原文件名.txt(或对应格式)使用 skill 目录下的 transcribe.py 脚本:
uv run /path/to/skills/audio-transcribe/transcribe.py "INPUT_FILE" [OPTIONS]
参数说明:
--model, -m: 模型大小 (tiny/base/small/medium/large-v2)--language, -l: 语言代码 (en/zh/ja/...),不指定则自动检测--no-align: 跳过词级别对齐--no-vad: 禁用 VAD 过滤(如果转录有时间跳跃/遗漏,使用此选项)--output, -o: 输出文件路径--format, -f: 输出格式 (srt/vtt/txt/json)示例:
# 基础转录(自动检测语言)
uv run skills/audio-transcribe/transcribe.py "video.mp4" -o "video.txt"
# 中文转录,输出 SRT 字幕
uv run skills/audio-transcribe/transcribe.py "audio.mp3" -l zh -f srt -o "subtitles.srt"
# 快速转录,不做词对齐
uv run skills/audio-transcribe/transcribe.py "audio.wav" --no-align -o "transcript.txt"
# 使用更大模型,输出 JSON(含词级别时间戳)
uv run skills/audio-transcribe/transcribe.py "speech.mp3" -m medium -f json -o "result.json"
# 禁用 VAD 过滤(解决时间跳跃/遗漏问题)
uv run skills/audio-transcribe/transcribe.py "audio.mp3" --no-vad -o "transcript.txt"
转录完成后:
[00:00:00.000 - 00:00:03.500] 这是第一句话
[00:00:03.500 - 00:00:07.200] 这是第二句话
1
00:00:00,000 --> 00:00:03,500
这是第一句话
2
00:00:03,500 --> 00:00:07,200
这是第二句话
[
{
"start": 0.0,
"end": 3.5,
"text": "这是第一句话",
"words": [
{"word": "这是", "start": 0.0, "end": 0.5, "score": 0.95},
...
]
}
]
首次运行较慢:
内存不足:
识别准确度低:
用户:帮我把这个视频转成文字
助手:
content-media
使用 yt-dlp 下载 YouTube 视频、音频或字幕。Use when user wants to 下载视频, 下载YouTube, youtube下载, 下载油管, download youtube, download video, 下载B站, bilibili下载.
tools
裁剪视频片段,支持压缩、音频控制等选项。Use when user wants to 剪辑视频, 裁剪视频, 截取视频, 视频剪切, 切视频, trim video, cut video, clip video, extract video segment.
data-ai
使用 AI 生成视频,支持 Veo/Sora 模型。Use when user wants to 生成视频, AI视频, 文生视频, 图生视频, generate video, create video, text to video, image to video, 做一个视频.
content-media
合并多个视频文件为一个视频。Use when user wants to 合并视频, 拼接视频, 视频合并, 视频拼接, 把视频合在一起, 连接视频, join videos, merge videos, combine videos, concatenate videos.