skills/video-to-text/SKILL.md
视频/音频转文字稿。从视频文件中提取音频,用 whisperX 进行语音识别、时间戳对齐和说话人分离,输出带时间戳和说话人标签的文字稿。适用于:直播回放转写、会议录音转文字、播客转录、任何视频/音频转文稿的场景。
npx skillsauth add yfge/video-skills-suite video-to-textInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
pip install whisperx)HF_TOKEN)对于简单的转写任务,直接运行脚本:
nohup python3 {skillDir}/scripts/transcribe.py /path/to/video.mp4 \
--output-dir /path/to/output \
--output-name transcript \
--diarize \
> /tmp/transcribe.log 2>&1 &
必须用 nohup 后台执行——长音频(>30 min)转写时间可达数十分钟到数小时,exec session 会超时。
ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 <file>ln -sf "<原路径>" /tmp/input-video.mp4运行 scripts/transcribe.py,关键参数:
| 参数 | 默认值 | 说明 |
|------|--------|------|
| --model | large-v3 | Whisper 模型,large-v3 最准但最慢 |
| --language | zh | 语言代码 |
| --diarize | off | 启用说话人分离(需 HF_TOKEN) |
| --device | cpu | cpu 或 cuda |
| --batch-size | 8 | 批次大小,内存不够可降低 |
长音频转写用 cron watcher 监控:
# 创建 watcher 脚本
cat > /tmp/watch-transcribe.sh << 'EOF'
if ! kill -0 <PID> 2>/dev/null; then
echo "done $(date)" > /tmp/transcribe-status.txt
fi
EOF
或通过 OpenClaw cron 每 5 分钟检查进程状态。
脚本生成两个文件:
<name>.txt: 人类可读文稿,按说话人分段,带 [MM:SS] 时间戳<name>.json: 完整 whisperX 输出,含 word-level 时间戳转写完成后,将 .txt 文件复制到 workspace/transcripts/ 目录:
<原始文件名>.txt(如 直播回放-02月26日.txt)| 音频时长 | 模型 | 设备 | 预计耗时 | |----------|------|------|----------| | 30 min | large-v3 | CPU (M-series) | ~15 min | | 1 hour | large-v3 | CPU (M-series) | ~30 min | | 2 hours | large-v3 | CPU (M-series) | ~60 min |
tools
视频内容全链路处理。一个视频进去,文字稿+观点摘要+短视频切片+可发布文章全出来。串联 video-to-text → insight-extractor → video-clipper → article-forge 四个 skill 的完整流水线。适用于:直播回放、播客、会议录像的一站式内容加工。
tools
从长视频(直播回放、会议录像、播客)中批量生成短视频切片。基于转写文稿精确定位观点边界,自动去除静音卡顿和口吃,输出音画同步的短视频。适用于:直播切片、会议精华提取、短视频二创、播客精彩片段。
tools
从长文本(直播文稿、会议记录、播客转录、文章)中提炼核心观点、金句、争议点和行动项。输出结构化的观点摘要,可直接供 article-forge 等下游 skill 使用。适用于:直播回放分析、会议纪要提炼、长文精读、内容策划前的素材整理。
data-ai
从观点摘要和原始素材生成可发布的文章。支持多种文体(博客、知乎回答、公众号、技术文章),自动应用防 AI 写作规则。适用于:直播内容二次创作、观点输出为文章、素材整合成稿、任何"有料但还没成文"的场景。