skills/mineru-ocr/SKILL.md
将本地文档、远程文档 URL 或网页 URL 转换为 Markdown。默认使用免登录轻量接口开箱即用;若已配置 MinerU Token,则自动切换到标准 API。保留 archive 回溯能力,并支持 Token 自检与私有部署连接说明。本技能应在用户需要 PDF 转 Markdown、OCR、远程文档转换、网页内容提取、表格识别、公式识别、文档转换、图片转文字、扫描件转换时使用。
npx skillsauth add cat-xierluo/legal-skills mineru-ocrInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
默认 Auto 模式:未配置 Token 时,自动使用官方免登录轻量接口;配置 Token 后,自动切换到标准 API。
.env如遇到以下情况,建议配置 Token:
eyJ0eXAiOiJKV1QiLCJhbGc...)方式一:让 AI 配置
"帮我配置 MinerU,Token 是:
xxx"
方式二:手动配置
cd .claude/skills/mineru-ocr/config
cp .env.example .env
nano .env # 填入 MINERU_API_TOKEN
方式三:复用官方 CLI 已保存的 Token
如果你已经跑过官方 mineru-open-api auth,本 skill 也会尝试回退读取 ~/.mineru/config.yaml 中保存的 Token。
当前读取优先级为:
.claude/skills/mineru-ocr/config/.env 中的 MINERU_API_TOKENMINERU_API_TOKENMINERU_TOKEN~/.mineru/config.yaml按当前规则,Token 有效期 3 个月(约 90 天)。过期后转换失败(错误 401 或 Unauthorized)。
更新方法:告诉 AI "我的 MinerU Token 过期了,新的 Token 是:xxx"
通过 MinerU 将文档转换为 Markdown 格式,支持:
| 场景 | 免登录轻量接口 | 标准 Token API | | ---- | -------------- | -------------- | | 本地 PDF / 图片 / Docx / Pptx | 支持 | 支持 | | 远程文档 URL(PDF、图片、Doc/Docx、PPT/PPTx) | 支持 | 支持 | | 网页 URL / HTML | 不支持 | 支持 | | 单文件大小 | 10 MB 内 | 200 MB 内 | | 页数限制 | 20 页内 | 600 页内 | | 表格识别 | 不支持,按官方口径需升级到标准模式 | 支持 | | 公式识别 | 不支持,按官方口径需升级到标准模式 | 支持 | | 输出 | Markdown | Zip 结果包 + Markdown / JSON / 额外格式 |
/usr/bin/osascript -l JavaScript .claude/skills/mineru-ocr/scripts/convert.js "/path/to/file.pdf"
/usr/bin/osascript -l JavaScript .claude/skills/mineru-ocr/scripts/convert.js "https://cdn-mineru.openxlab.org.cn/demo/example.pdf"
/usr/bin/osascript -l JavaScript .claude/skills/mineru-ocr/scripts/convert.js "https://example.com/article"
/usr/bin/osascript -l JavaScript .claude/skills/mineru-ocr/scripts/convert.js checktoken
编辑 .claude/skills/mineru-ocr/config/.env:
| 选项 | 默认值 | 说明 |
| --------------------- | -------- | --------------- |
| MINERU_API_TOKEN | 空 | 可选;填写后强制走标准 Token API |
| MINERU_ENABLE_OCR | true | 启用 OCR |
| MINERU_ENABLE_TABLE | true | 启用表格识别;主要对标准 Token API 生效 |
| MINERU_ENABLE_FORMULA | false | 启用公式识别;主要对标准 Token API 生效 |
| MINERU_LANGUAGE_CODE | ch | 语言代码 |
| MINERU_API_BASE | https://mineru.net/api/v4 | 标准 API 地址 |
| MINERU_MODEL_VERSION | pipeline | 标准 Token API 模型;法律文档建议默认 pipeline,复杂版面可改 vlm |
| MINERU_PAGE_RANGES | 空 | 标准 Token API 页码范围,如 1-20、2,4-6 |
| MINERU_POLL_MAX | 20 | 最大轮询次数 |
| MINERU_POLL_SLEEP | 10 | 轮询间隔(秒) |
| MINERU_LOG_LEVEL | medium | 日志等级 |
.claude/skills/mineru-ocr/archive/日期_时间_文件名/MINERU_MODEL_VERSION=pipelinevlmvlmMINERU_PAGE_RANGES=1-20当你想确认当前 Token 是否有效时,可运行:
/usr/bin/osascript -l JavaScript .claude/skills/mineru-ocr/scripts/convert.js checktoken
当前 skill 仅面向 官方云端 API。
如需走你自己的云端转发网关,且该网关 兼容官方 v4 API,可在 .env 中修改:
MINERU_API_BASE=https://your-gateway.example.com/api/v4
当前脚本默认适配的是官方云端 v4 API 工作流。
如果你部署的是官方 mineru-api / mineru-router FastAPI 服务,它们主要暴露的是 /tasks、/file_parse 等接口,不在本 skill 当前支持范围内。这类场景建议:
官方 skill 中的网页提取主要是通过 CLI 的 mineru-open-api crawl <url> 实现的,属于 Token 模式能力,不是轻量接口能力。
这里的 CLI 是 官方提供的命令行封装层。CLI 底层仍然会调用 MinerU 的云端 API;它不是本地离线解析器。
你当前这个 skill 现在也支持网页 URL,但仅在 已配置 Token 时启用;未配置 Token 时,网页 URL 会提示用户改用标准 API。
| 问题 | 解决方案 |
| ---------------- | ---------------------------------------------- |
| 轻量接口限频 | 稍后重试,或配置 Token 切换到标准 API |
| 文件过大 / 页数过多 | 配置 Token,改走标准 API |
| 网页 URL 无法轻量解析 | 轻量接口不支持 HTML,请配置 Token |
| 401/Unauthorized | Token 已过期,重新申请并更新 |
| 转换超时 | 增加 MINERU_POLL_MAX 或检查文件大小 |
| 配额不足 | 检查 MinerU 账户额度 |
content-media
Legal Visualization。面向法律业务场景的法律图解与图表生成技能;当用户要求把案件材料、合同材料、合规事项、交易安排、证据链、诉讼流程、时间轴、法律关系、客户汇报、法律服务方案或律师团队工作整理成关系图、流程图、时间轴、证据链、风险图、路线图、PNG/SVG/PDF/.drawio 时使用;也兼容“法律可视化”“案件事实图”“法律关系图”等说法。先按受众、任务动词和路由规则筛选场景,再生成可交付图片,并保留 draw.io 源文件作为可编辑底稿。本技能不用于事实核验,也不替代法律结论判断。
development
Skill 质量验收与格式审查工具,也可称 Skilllint。本技能应在用户需要审查 Claude Code Skill 的目录结构、Frontmatter、引用一致性、发布版本、业务流深度、可评估性和安全风险时使用。不要用于:创建新技能、代码审查、应用功能测试、通用编程任务。
content-media
将图片或 PDF 页面按 N 张/页编排为标准化 A4 PDF,或将长截图渲染为单张自适应高度 PDF。本技能应在用户需要将截图(手机截图、视频截图)、照片、已有 PDF 页面或长截图(微信聊天、庭审笔录)合并为 PDF 时使用。不要用于:OCR 文字识别、PDF 内容编辑、图片格式转换。
content-media
本技能应在用户需要 OCR、扫描识别、图片文字识别、文档识别,或将 PDF、图片、Office 文档、URL 转换为 Markdown 时使用。检测到法律材料时可进行保守的法律术语与文书结构优化。不要用于法律事实判断、补写缺失内容、语义改写、印章深度识别或图表实体分析。