skills/video-pipeline/SKILL.md
视频内容全链路处理。一个视频进去,文字稿+观点摘要+短视频切片+可发布文章全出来。串联 video-to-text → insight-extractor → video-clipper → article-forge 四个 skill 的完整流水线。适用于:直播回放、播客、会议录像的一站式内容加工。
npx skillsauth add yfge/video-skills-suite video-pipelineInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
丢一个视频进来,出一套完整的内容产品:文字稿 + 观点摘要 + 短视频切片 + 可发布文章。
输入: 视频文件 (直播回放/播客/会议录像)
│
▼
┌─────────────────────────────────────────────┐
│ Stage 1: video-to-text │
│ 转写 → 带时间戳的文字稿 + JSON │
│ (去口吃的基础数据也在这里产生) │
└──────────────────┬──────────────────────────┘
│
┌──────────┴──────────┐
▼ ▼
┌───────────────┐ ┌─────────────────────┐
│ Stage 2: │ │ Stage 3: │
│ insight- │ │ video-clipper │
│ extractor │ │ 按观点切片 → │
│ 提炼观点/金句 │ │ 去静音/去口吃 → │
│ /争议点 │ │ 短视频成品 │
└───────┬───────┘ └─────────────────────┘
│
▼
┌───────────────────────────────────────────┐
│ Stage 4: article-forge │
│ 观点摘要 + 原始文稿 → 可发布文章 │
│ (博客/知乎/公众号) │
└───────────────────────────────────────────┘
输出目录: workspace/pipeline/<project-name>/
├── transcript.txt # 完整文字稿
├── transcript.json # 带时间戳 JSON
├── insights.md # 观点摘要
├── clips/ # 短视频切片
│ ├── 01-xxx.mp4
│ ├── 02-xxx.mp4
│ └── ...
└── articles/ # 生成的文章
├── blog-xxx.md
└── zhihu-xxx.md
用户给出:
transcript — 只要文字稿insights — 文字稿 + 观点clips — 文字稿 + 切片articles — 文字稿 + 观点 + 文章all — 全部(默认)video-to-text SKILL.mdworkspace/pipeline/<project-name>/nohup python3 {video-to-text-skillDir}/scripts/transcribe.py \
/path/to/video.mp4 \
--output-dir workspace/pipeline/<project-name>/ \
--output-name transcript \
--diarize \
> /tmp/pipeline-transcribe.log 2>&1 &
transcript.txt + transcript.json⚠️ 这是最耗时的阶段,30 分钟视频大约需要 10-20 分钟转写。后续阶段都很快。
insight-extractor SKILL.mdtranscript.txtinsights.md关键: 金句和观点的时间戳要精确,Stage 3 切片需要用。
可以和 Stage 2 并行(都只依赖 Stage 1 的输出)。
video-clipper SKILL.mdinsights.md 的观点 + transcript.json 的时间戳定位切片边界batch-clip-v4.sh 批量切片(去静音 + 去口吃 + crossfade)batch-postcheck.sh 二次质检iterate-until-clean.py 迭代修复clips/01-xxx.mp4, clips/02-xxx.mp4, ...优化: 优先切 insights 中标记为「金句」和「争议点」的片段——这些做短视频最有传播力。
article-forge SKILL.mdinsights.md + transcript.txtarticles/blog-xxx.md 或 articles/zhihu-xxx.md可选: 如果用户要求发布,调用 ZhiForge 的发布流程。
时间线:
─────────────────────────────────────────────────>
Stage 1 (转写) Stage 2 (观点) Stage 4 (文章)
████████████████ ████████ ████████
Stage 3 (切片)
████████████████
推荐用 sessions_spawn 并行化:
主 agent:
1. 启动 Stage 1(转写,等待完成)
2. spawn 子 agent A → Stage 2(观点提炼)
3. spawn 子 agent B → Stage 3(视频切片)
4. 等 A 完成 → 启动 Stage 4(文章生成)
5. 等 B 完成 → 汇总输出
全部完成后,向用户汇报:
🎬 视频内容处理完成
📹 源文件:xxx.mp4 (时长 XX:XX)
📁 项目目录:workspace/pipeline/<name>/
📝 文字稿:transcript.txt (XXXX 字)
💡 观点提炼:insights.md
- X 个核心观点
- X 条金句
- X 个争议点
🎞️ 短视频切片:X 条
- 01-xxx.mp4 (XX:XX) — 主题
- 02-xxx.mp4 (XX:XX) — 主题
- ...
📄 文章:X 篇
- blog-xxx.md (XXXX 字) — 标题
- zhihu-xxx.md (XXXX 字) — 标题
用户说以下任何一种,触发此 skill:
默认执行 all(全部产出),除非用户指定只要某个阶段。
workspace/pipeline/<project-name>/,不用 /tmp/browser stopcontent-media
视频/音频转文字稿。从视频文件中提取音频,用 whisperX 进行语音识别、时间戳对齐和说话人分离,输出带时间戳和说话人标签的文字稿。适用于:直播回放转写、会议录音转文字、播客转录、任何视频/音频转文稿的场景。
tools
从长视频(直播回放、会议录像、播客)中批量生成短视频切片。基于转写文稿精确定位观点边界,自动去除静音卡顿和口吃,输出音画同步的短视频。适用于:直播切片、会议精华提取、短视频二创、播客精彩片段。
tools
从长文本(直播文稿、会议记录、播客转录、文章)中提炼核心观点、金句、争议点和行动项。输出结构化的观点摘要,可直接供 article-forge 等下游 skill 使用。适用于:直播回放分析、会议纪要提炼、长文精读、内容策划前的素材整理。
data-ai
从观点摘要和原始素材生成可发布的文章。支持多种文体(博客、知乎回答、公众号、技术文章),自动应用防 AI 写作规则。适用于:直播内容二次创作、观点输出为文章、素材整合成稿、任何"有料但还没成文"的场景。