plugins/tools/cortex/skills/cortex-audio-understand/SKILL.md
音频理解 — ASR 转录 + 音频问答。多 provider (openai whisper / zhipu glm-asr / openai gpt-4o-audio / qwen-audio); 两种模式 asr (Whisper 风格 multipart 转录) 与 chat (OpenAI gpt-4o-audio / 通义 qwen-audio 问答)。从 vault/.cortex/config/audio-understand.yaml 选 provider。Triggers on "转录", "转写", "听音频", "audio transcription", "ASR", "音频问答", "音频理解", "听这段录音", "/cortex:audio-understand".
npx skillsauth add lazygophers/ccplugin cortex-audio-understandInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
把音频喂给 ASR / 音频 LLM 拿文本结果。镜像 cortex-image-understand, 双模式适配转录与问答两类需求。
优先 CLI: bash ~/.cortex/scripts/audio_understand.sh <subcommand> ...
transcribe <audio> [--config NAME] [--language LANG] — ASR 纯转录describe <audio> [--config NAME] [--prompt TEXT] — 概述音频ask <audio> "<question>" [--config NAME] — 音频问答probe [--config NAME] [--all]list [--all]输入: 本地文件路径 (mp3/wav/m4a/webm/flac/ogg/opus)
JSON 输出: {ok, text, provider, model, mode, usage}
| 模式 | 子命令 | provider 例 | 原理 |
|---|---|---|---|
| asr | transcribe | openai whisper-1, zhipu glm-asr | multipart upload /v1/audio/transcriptions |
| chat | describe / ask | openai gpt-4o-audio-preview, qwen-audio, zhipu glm-4-voice | chat completions + input_audio content |
provider yaml 里写 mode: asr|chat。transcribe 强制 asr, describe/ask 强制 chat — 不需要手 override。
不触发: TTS (本 skill 不合成) / 实时流 / 说话人分离
用户给音频文件 + ?
│
├─ "转成文字" / "转录" / "字幕" → transcribe (asr 模式)
├─ 想要内容概述, 无具体问题 → describe (chat 模式)
├─ 带具体问题 ("说了什么/几个人/几次") → ask (chat 模式)
| name | endpoint | model | mode | 备注 | |---|---|---|---|---| | openai-whisper | api.openai.com/v1/audio/transcriptions | whisper-1 | asr | 业界标杆, 多语言强 | | zhipu-glm-asr | bigmodel.cn/api/paas/v4/audio/transcriptions | glm-asr | asr | 中文场景默认推荐 | | openai-gpt4o-audio | api.openai.com/v1/chat/completions | gpt-4o-audio-preview | chat | 支持问答 + 推理 | | qwen-audio | dashscope.aliyuncs.com/compatible-mode/v1/chat/completions | qwen-audio-turbo | chat | 中文 + 多任务 |
完整模板见 references/providers.md。
支持 mp3 / wav / m4a / webm / flac / ogg / opus。MIME 按后缀自动判定。
ffmpeg -i in.wav -t 600 -ss 0 out.wav)default_provider 或第一个 active--language 时由 provider 自动检测✓ 音频转录完成
provider: openai-whisper (whisper-1) mode=asr
text:
<transcript>
| 文件 | 内容 | |---|---| | references/providers.md | 4 provider 配置模板 + asr/chat 模式字段 + language | | references/prompts.md | describe / 摘要 / 说话人区分 / 时间戳标注 prompt | | references/modes.md | asr vs chat 决策 + 子命令路由 + 文件格式坑 |
tools
--- name: trellisx-workspace description: 维护 `.trellis/task.md` 任务看板 —— trellis 缺的跨任务总览。**一个表格, 一行一个任务**, 列为 id/名称/描述/状态/阶段/进度/worktree (状态/阶段中文显示)。在 task create/start/阶段切换/archive 后**及时更新**对应行; 并**自动清理超 7 天的已完成行**防膨胀。保持看板与 task.json 实时一致。 when_to_use: 维护 / 创建 / 更新 `.trellis/task.md` 任务看板时; task 生命周期任一节点 (create/start/阶段推进/archive) 之后同步看板时; 用户问"当前有哪些任务 / 任务进度 / 任务看板"时。被 trellisx-flow 与 trellisx-apply 注入的流程引用。 user-invocable: true argument-hint: [show|update|sync|cleanup ...] [task id] arguments:
testing
强制以 Trellis task 闭环处理用户指定的请求 (自判新建/并入 → plan→exec→check→finish 全程不跳步)。**仅用户显式主动调用** (/trellisx-flow 或明确要求"强制走 task 处理这个"); **禁止自动 / 被动 / 推断式调用** —— 不要因为某个请求"看起来该建 task"就自动触发本 skill, 那是 apply 注入的 no_task 倾向的职责。
testing
把 强推task + subtask拆分 + worktree隔离 + 闭环收尾 四维度增量注入当前项目 .trellis/ (workflow.md 的 no_task/planning/in_progress 块 + spec 背书文档 + trellis 生命周期 hook worktree 自动化)。强推 task 与闭环为纯 prompt 软约束 (非平台 hook 硬拦截)。**纯增量追加, 绝不替换 trellis 原生文本** (no_task 分类+征同意/check/finish/前缀全保留)。幂等 (marker 包裹)。
development
Claude Code 会话历史整理 — 扫 ~/.claude/projects/**/*.jsonl 全部 session transcripts, 提取学习增量 (用户校正/决策/踩坑/L0 规则) → 全局记忆库 ~/.cortex/.wiki/memory/. 默认 --apply 落盘 (--dry-run opt-in 仅出 JSON plan 预览). 与 cortex-extract (L4-inbox 内部) 互补.