Adoption

Agent Skills are supported by leading AI development tools.

VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory VS Code Gemini CLI GitHub Goose Amp Cursor Claude Code Letta OpenCode Claude OpenAI Codex Factory

lazygophers/cortex-image-understand

Name: cortex-image-understand
Author: lazygophers

plugins/tools/cortex/skills/cortex-image-understand/SKILL.md

npx skillsauth add lazygophers/ccplugin cortex-image-understand

Clean

TrivyContainer and dependency vulnerability scanner

Clean

SemgrepStatic code analysis for vulnerabilities

Clean

mcp-scan (Snyk)Model Context Protocol security validation

Skipped

Snyk (dep)Open source security scanning

Skipped

Socket.devSupply chain security analysis

Skipped

VirusTotalMulti-engine malware detection

Skipped

CrowdStrikeAdvanced threat intelligence

Skipped

OSV-ScannerOpen Source Vulnerability database check

Skipped

OWASP Dep-Check

cortex-image-understand

把图片喂给 VLM 拿到文本结果。与 cortex-image (文生图) 对称, OpenAI 兼容 chat completions vision 格式, 走多 provider 配置驱动。

调用优先级 (P1)

优先 CLI: bash ~/.cortex/scripts/image_understand.sh <subcommand> ...
- describe <image> [--config NAME] [--prompt TEXT] — 通用描述
- ask <image> "<question>" [--config NAME] — 视觉问答
- extract <image> --schema <path> [--config NAME] — 按 JSON schema 抽字段
- probe [--config NAME] [--all] — 健康检查
- list [--all] — 列已配 provider
<image> 输入支持: 本地路径 (自动 base64 编码) 或 http(s):// URL
输出 JSON: {ok, text, provider, model, usage, key_source} (extract 额外含 data + raw_text)

触发场景

用户给图 + 问"这是什么 / 写了啥 / 帮我看看"
笔记里有截图需要转文字 (OCR/表格识别)
需要按字段抽取 (发票/海报/简历) → extract 模式 + schema 文件
多张图批量描述 (循环调 describe, 写入 vault sidecar md)

不触发: 纯文本任务 / 文生图 (走 cortex-image) / 图像编辑生成 (本 skill 仅读不画)

决策树

1. 解析输入                  user 给的是路径 / URL / 屏幕截图 / 多张?
   ↓
2. 选模式                    通用描述 → describe
                            带问题   → ask
                            要结构化 → extract (须有 schema 文件)
                            纯 OCR   → ask "把图中所有文字按原始版式输出, 用 markdown"
   ↓
3. 选 provider               用户指定 ? --config : 默认 (default_provider 或第一个 active)
                            详见 references/providers.md
   ↓
4. 调 image_understand.sh
   ↓
5. 接 JSON                   验 ok=true; extract 额外验 data 非空
   ↓
6. 反馈给用户                文字结果直接展示; 结构化结果格式化为 table / yaml

Provider 速查

| name | endpoint | model | 适合 | |---|---|---|---| | zhipu-glm4v | bigmodel.cn/api/paas/v4 | glm-4v-plus | 中文场景, 默认推荐 | | zhipu-glm45v | 同上 | glm-4.5v | 更强推理, 复杂图 | | openai-gpt4o | api.openai.com/v1 | gpt-4o-mini | 英文 / 通用 | | qwen-vl | dashscope.aliyuncs.com/compatible-mode/v1 | qwen-vl-plus | 中文 + 长图 |

完整配置模板见 references/providers.md。

extract 模式 schema 文件

--schema <path> 接一个 schema 文件 (非内联字符串), 内容通常是 JSON Schema 或简化 shape:

{
  "title": "string",
  "date": "YYYY-MM-DD",
  "amount": "number",
  "items": [{"name": "string", "qty": "integer"}]
}

模型按此结构输出纯 JSON, CLI 后处理剥 ```json 围栏 + json.loads 校验。

AUTO_MODE

不询问 provider, 用 defaults.default_provider 或第一个 active
不预询问 prompt (describe 用默认中文描述 prompt)
失败自动 fallback: probe → 选下一个 active provider 重跑 1 次

输出格式

成功 (describe / ask):

✓ 图理解完成
  provider: zhipu-glm4v (glm-4v-plus)
  usage:    prompt=512 completion=180

  <text 直接展示>

成功 (extract):

✓ 结构化抽取完成 (provider: zhipu-glm4v)

  {
    "title": "...",
    ...
  }

失败: 输出 stderr error JSON + 建议 bash ~/.cortex/scripts/image_understand.sh probe 排查。

References

| 文件 | 内容 | |---|---| | references/providers.md | 4 provider 配置模板 + endpoint / model / 鉴权 / extra_body 字段 | | references/prompts.md | describe / OCR / VQA / 表格识别 / 海报抽取 prompt 模板 | | references/modes.md | 4 模式 (describe/ask/extract/OCR) 决策表 + 何时用哪个 |

不做

不真跑 API 当用户只问 "能不能" — 先确认意图
不流式输出 (chat completions 一次返回够用)
不自动落 sidecar md (用户需要走 cortex-save 显式归档)
不 git commit (wrapper trap 自动处理)
不处理视频 (zhipu glm-4v plus 不支持视频帧序列, 后续单开)

lazygophers/cortex-image-understand

plugins/tools/cortex/skills/cortex-image-understand/SKILL.md

图理解 — 调多 provider VLM (zhipu glm-4v / openai gpt-4o / qwen-vl) 完成图片描述、视觉问答、OCR、结构化抽取。从 vault/.cortex/config/image-understand.yaml 选 provider。Triggers on "看图", "识图", "图理解", "VQA", "vision", "describe image", "看看这张图", "图里写了什么", "提取图中文字", "OCR", "/cortex:understand".

3 stars

testing

Updated May 23, 2026

$ install --global

skillsauth

npx skillsauth add lazygophers/ccplugin cortex-image-understand

Install this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.

Security Scan Results

3 of 9 scanners reported clean

Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.

Scanners Passed

Scanners in report

Clean

TrivyContainer and dependency vulnerability scanner

95%

Clean

SemgrepStatic code analysis for vulnerabilities

95%

Clean

mcp-scan (Snyk)Model Context Protocol security validation

95%

Skipped

Snyk (dep)Open source security scanning

50%

Skipped

Socket.devSupply chain security analysis

50%

Skipped

VirusTotalMulti-engine malware detection

50%

Skipped

CrowdStrikeAdvanced threat intelligence

50%

Skipped

OSV-ScannerOpen Source Vulnerability database check

50%

Skipped

OWASP Dep-Check

50%

Last scanned: May 23, 2026, 7:54 AM123.9s4 files scanned

SKILL.md

name:: cortex-image-understand
description:: 图理解 — 调多 provider VLM (zhipu glm-4v / openai gpt-4o / qwen-vl) 完成图片描述、视觉问答、OCR、结构化抽取。从 vault/.cortex/config/image-understand.yaml 选 provider。Triggers on "看图", "识图", "图理解", "VQA", "vision", "describe image", "看看这张图", "图里写了什么", "提取图中文字", "OCR", "/cortex:understand".
disable-model-invocation:: false
allowed-tools:: Bash Read Write

cortex-image-understand

把图片喂给 VLM 拿到文本结果。与 cortex-image (文生图) 对称, OpenAI 兼容 chat completions vision 格式, 走多 provider 配置驱动。

调用优先级 (P1)

优先 CLI: bash ~/.cortex/scripts/image_understand.sh <subcommand> ...
- describe <image> [--config NAME] [--prompt TEXT] — 通用描述
- ask <image> "<question>" [--config NAME] — 视觉问答
- extract <image> --schema <path> [--config NAME] — 按 JSON schema 抽字段
- probe [--config NAME] [--all] — 健康检查
- list [--all] — 列已配 provider
<image> 输入支持: 本地路径 (自动 base64 编码) 或 http(s):// URL
输出 JSON: {ok, text, provider, model, usage, key_source} (extract 额外含 data + raw_text)

触发场景

用户给图 + 问"这是什么 / 写了啥 / 帮我看看"
笔记里有截图需要转文字 (OCR/表格识别)
需要按字段抽取 (发票/海报/简历) → extract 模式 + schema 文件
多张图批量描述 (循环调 describe, 写入 vault sidecar md)

不触发: 纯文本任务 / 文生图 (走 cortex-image) / 图像编辑生成 (本 skill 仅读不画)

决策树

1. 解析输入                  user 给的是路径 / URL / 屏幕截图 / 多张?
   ↓
2. 选模式                    通用描述 → describe
                            带问题   → ask
                            要结构化 → extract (须有 schema 文件)
                            纯 OCR   → ask "把图中所有文字按原始版式输出, 用 markdown"
   ↓
3. 选 provider               用户指定 ? --config : 默认 (default_provider 或第一个 active)
                            详见 references/providers.md
   ↓
4. 调 image_understand.sh
   ↓
5. 接 JSON                   验 ok=true; extract 额外验 data 非空
   ↓
6. 反馈给用户                文字结果直接展示; 结构化结果格式化为 table / yaml

Provider 速查

完整配置模板见 references/providers.md。

extract 模式 schema 文件

--schema <path> 接一个 schema 文件 (非内联字符串), 内容通常是 JSON Schema 或简化 shape:

{
  "title": "string",
  "date": "YYYY-MM-DD",
  "amount": "number",
  "items": [{"name": "string", "qty": "integer"}]
}

模型按此结构输出纯 JSON, CLI 后处理剥 ```json 围栏 + json.loads 校验。

AUTO_MODE

不询问 provider, 用 defaults.default_provider 或第一个 active
不预询问 prompt (describe 用默认中文描述 prompt)
失败自动 fallback: probe → 选下一个 active provider 重跑 1 次

输出格式

成功 (describe / ask):

✓ 图理解完成
  provider: zhipu-glm4v (glm-4v-plus)
  usage:    prompt=512 completion=180

  <text 直接展示>

成功 (extract):

✓ 结构化抽取完成 (provider: zhipu-glm4v)

  {
    "title": "...",
    ...
  }

失败: 输出 stderr error JSON + 建议 bash ~/.cortex/scripts/image_understand.sh probe 排查。

References

不做

不真跑 API 当用户只问 "能不能" — 先确认意图
不流式输出 (chat completions 一次返回够用)
不自动落 sidecar md (用户需要走 cortex-save 显式归档)
不 git commit (wrapper trap 自动处理)
不处理视频 (zhipu glm-4v plus 不支持视频帧序列, 后续单开)

Related Skills

lazygophers/design-uiux

tools

VerifiedTrustedCommunity

UI/UX 与布局设计——做界面布局/结构/导航/组件/交互的设计决策。触发：做UI/UX/布局/排版/导航/组件/交互/栅格/响应式/图表选型/字体配对。按媒介路由 HTML/Web、原生 App(iOS/Android/桌面)、CLI、TUI。需后端动态系统不适用；配色/主题/色板走姊妹 skill design-color。

4SKILL.mdUpdated Jul 22, 2026

lazygophers/design-uiux

lazygophers/design-color

tools

VerifiedTrustedCommunity

主题与配色设计——做颜色搭配/调色板/主题/品牌色阶/暗模式的设计决策。触发：选配色/调色/主题/色板/品牌色/暗模式/对比度/色盲/UI风格。按媒介路由 HTML/Web(CSS变量)、原生App(平台token)、CLI(ANSI)、TUI(真彩/256/16降级)。保证可访问性（对比度/色盲安全）。需后端动态系统不适用；UI/UX 布局/组件/交互走姊妹 skill design-uiux。

4SKILL.mdUpdated Jul 22, 2026

lazygophers/design-color

lazygophers/optimize-any

tools

VerifiedTrustedCommunity

跨任意组件（plugin/skill/agent/command）的验证驱动优化循环纪律 skill。当用户要优化某个已有组件却无明确方向、或要防止改了反而更差（自评乐观偏差 / 多维同改归因失效 / 为凑分加废话膨胀）、或要把一套通用「评分→单变量改→改后验证严格更好才留否则回滚→触顶停」的纪律套到任意组件上时使用。管优化过程本身的纪律（validation gate / ratchet / 独立验证 / 触顶停），不评单组件深度（交 skill-dev），不查插件接线（交 plugin-dev）。仅手动 /optimize-any 触发。

4SKILL.mdUpdated Jul 18, 2026

lazygophers/optimize-any

lazygophers/skein-spec

data-ai

VerifiedTrustedCommunity

两层规则记忆 (基于 .skein/spec)。planning 时 recall 召回相关规则、task finish 后 sediment 沉淀学习 + prune 自动精简过期/重复/断链规则。core 常驻硬规 + recall 按需召回, 经判定门自动写盘 (不逐次问用户)。产出 .skein/spec 下 core/recall 规则文件 + index。另支持空仓 bootstrap 播种规则基线、记忆大面积失效 (大重构/换栈) 时 reconstruct 可逆归档后按项目类型分型重建、maintain 手动体检 (超预算/stale/断链/重复/废弃, --apply 自动修复)、auto-fix (Stop hook 写 .pending-fix 标记 → main 派 skein-specer bg 跑 maintain --apply 全自动修, 断链只报告)。

4SKILL.mdUpdated Jul 18, 2026

lazygophers/skein-spec

Download

For Claude Desktop. Download once, then upload the file in the app — no terminal needed.

Need help? View full Cowork setup guide →

Install manually

Choose your platform

# Clone the repo
git clone https://github.com/lazygophers/ccplugin.git

# Copy into Claude Code skills folder (global)
cp -r ccplugin/plugins/tools/cortex/skills/cortex-image-understand ~/.claude/skills/

Claude Code Skills — official skills path docs.

Repository

lazygophers/ccplugin

3 stars

Compatible with

Claude Code

OpenAI Codex CLI

ChatGPT