skills/pdf-organizer/SKILL.md
当需要整理法律 PDF 时使用:检测文字层,生成页面索引、整理草稿和下游交接文件,按内容拆分、合并或直接重命名 OCR 后双层扫描件并规范命名;可做旋转与倾斜校正,不做 OCR 或压缩。
npx skillsauth add cat-xierluo/legal-skills pdf-organizerInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
本技能处理“PDF 文件和法律文书逻辑不一致”的问题。它关注的不是普通文件拼接,而是按文书内容把 PDF 整理成律师实际会使用的文件。
核心职责:
handoff.json,供案件材料整理、合同审查、诉讼分析等 Skill 协同使用。本技能不做 OCR、不压缩 PDF,也不替代案件材料整体归类。若 PDF 还没有可检索文字层,先使用 OCR 工具;若需要复杂裁边、压缩、批量 OCR 或高质量图像预处理,优先使用 PDF Processor。
| 依赖 | 安装方式 |
|------|----------|
| python3 | macOS 通常已内置 |
| ocrmypdf | 可选,仅 deskew 倾斜校正需要;macOS: brew install ocrmypdf |
| 包名 | 用途 | 安装命令 |
|------|------|----------|
| pypdf | 拆分、合并、复制、页面旋转 | python3 -m pip install -r scripts/requirements.txt |
只做清单规划时不需要安装依赖;执行拆分、合并或旋转时需要 pypdf。倾斜校正依赖 ocrmypdf 命令行工具,未安装时应提示用户改用 PDF Processor 或先安装。
第 1-2 页.pdf、第 3-4 页.pdf。archive/YYYYMMDD_HHMMSS_{来源名}/。archive 默认包含:
organize_manifest.input.json:本次输入清单副本。organize_manifest.resolved.json:实际输出路径、页码、状态和命名依据。organize_report.md:给人工复核的摘要报告。handoff.json:面向下游 Skill 的交接文件。run_meta.json:运行元数据。organize_manifest.json 草稿,再由 AI 根据页面证据和命名规则复核。deskew,但复杂图像问题优先交给 PDF Processor。拆分场景:
1/N 重新开始。合并场景:
重命名场景:
input_file 指定来源,用 suggested_filename 给出规范文件名。rotate 或 deskew。如果边界不确定,不要强行合并或拆开;在 manifest 中标记 needs_review: true,并在文件名中保留页码提示。
常见法律文书的细分识别规则见 references/recognition-rules.md。
默认文件名格式:
文书名称 关键主体 补充区分.pdf
规则:
YYYYMMDD;日期缺失或 OCR 可疑时省略。 1、 2,不覆盖已有文件。待确认 页码.pdf 或 疑似文书名称 页码.pdf。示例:
专项法律服务合同 北京青柏教育咨询有限公司.pdf
委托代理合同 张家宁与杭州叠影科技有限公司 著作权权属侵权纠纷.pdf
授权委托书 张家宁.pdf
律师事务所函 张家宁诉杭州叠影科技有限公司.pdf
民事起诉状 张家宁诉杭州叠影科技有限公司 普通版.pdf
民事起诉状 张家宁诉杭州叠影科技有限公司 要素式.pdf
执行前先生成 organize_manifest.json。字段说明见 references/organize-manifest-schema.md。
{
"source_pdf": "/path/to/ocr.pdf",
"output_dir": "/path/to/output",
"segments": [
{
"id": "D001",
"pages": "1-2",
"suggested_filename": "专项法律服务合同 北京青柏教育咨询有限公司.pdf",
"title": "专项法律服务合同",
"confidence": "high",
"needs_review": false,
"evidence": "第 1 页标题为专项法律服务合同,页脚显示第1页共2页。"
}
]
}
{
"output_dir": "/path/to/output",
"segments": [
{
"id": "D001",
"source_items": [
{"file": "/path/to/起诉状 第1-2页.pdf"},
{"file": "/path/to/起诉状 第3-4页.pdf"}
],
"suggested_filename": "民事起诉状 张家宁诉杭州叠影科技有限公司 普通版.pdf",
"title": "民事起诉状",
"confidence": "high",
"needs_review": false,
"evidence": "两份 PDF 标题一致且页码连续,第二份为同一份起诉状续页。"
}
]
}
{
"output_dir": "/path/to/output",
"segments": [
{
"id": "D001",
"input_file": "/path/to/横向扫描.pdf",
"rotate": 90,
"suggested_filename": "授权委托书 张家宁.pdf",
"confidence": "medium",
"needs_review": true
}
]
}
不需要拆分或合并,只根据内容识别结果规范命名:
{
"output_dir": "/path/to/output",
"segments": [
{
"id": "D001",
"input_file": "/path/to/scan_20260531_001.pdf",
"suggested_filename": "民事起诉状 张家宁诉杭州叠影科技有限公司 普通版.pdf",
"title": "民事起诉状",
"document_type": "民事起诉状",
"confidence": "high",
"needs_review": false,
"evidence": "首页标题为民事起诉状,正文提及张家宁与杭州叠影科技有限公司著作权权属侵权纠纷。"
},
{
"id": "D002",
"input_file": "/path/to/scan_20260531_002.pdf",
"suggested_filename": "授权委托书 张家宁.pdf",
"title": "授权委托书",
"document_type": "授权委托书",
"confidence": "high",
"needs_review": false,
"evidence": "首页标题为授权委托书,委托人张家宁。"
}
]
}
首次执行拆分、合并或旋转时,先安装依赖:
python3 -m pip install -r scripts/requirements.txt
预览计划:
python3 scripts/pdf_organizer.py --manifest organize_manifest.json --dry-run
只检测 PDF 是否有可检索文字层:
python3 scripts/pdf_organizer.py --check-text-layer "/path/to/file.pdf"
生成页面检查索引:
python3 scripts/pdf_organizer.py \
--inspect "/path/to/ocr.pdf" \
--inspect-output "/path/to/page_inspection.json"
生成 manifest 草稿:
python3 scripts/pdf_organizer.py \
--suggest-manifest "/path/to/ocr.pdf" \
--output-dir "/path/to/organized" \
--manifest-output "/path/to/organize_manifest.json"
将一个或多个 PDF 的每页标准化为 A4 尺寸,横向页面→A4 横版,竖向页面→A4 竖版:
# 原地覆盖
python3 scripts/pdf_organizer.py --normalize-a4 file1.pdf file2.pdf
# 输出到指定目录
python3 scripts/pdf_organizer.py --normalize-a4 file1.pdf file2.pdf --normalize-output-dir /path/to/output
草稿只作为复核起点。脚本会保守使用 待确认,不要跳过人工/AI 复核直接执行。
确认后执行:
python3 scripts/pdf_organizer.py --manifest organize_manifest.json
常用覆盖参数:
python3 scripts/pdf_organizer.py \
--manifest organize_manifest.json \
--source "/path/to/ocr.pdf" \
--output-dir "/path/to/organized" \
--archive-root "/path/to/archive-root"
脚本默认以 strict 模式检测来源 PDF 的文字层;检测不到可检索文字层时会停止执行。只有在纯旋转、复制等不依赖内容判断的场景,才可在 manifest 中设置 "text_check": "off" 或命令行使用 --text-check off。
脚本只向输出目录写入最终 PDF,不修改源 PDF;manifest、resolved JSON、报告、handoff.json 和元数据写入 archive。
每次正式执行都会在 archive 中生成 handoff.json。下游 Skill 优先读取该文件,而不是重新猜测文件名和文书类型。
suggested_downstream 按文书类别给出路由标签,不绑定具体 Skill 名称:
合同审查。诉讼分析。材料整理。材料整理。具体由哪个 Skill 消费,由下游根据当前可用的 Skill 和案件上下文自行决定。
完成后检查:
pages 对应;合并文件页数等于来源 PDF 页数之和。organize_report.md 没有 low 且 needs_review: true 的未处理项;如果有,明确提示用户人工复核。data-ai
当用户要求你并行推进多个任务、一次性开多个 worker/agent 同时工作、用 tmux 启动多个独立 session、防止 PM 直接实现逃逸、或者你作为 PM 需要拆解并派发任务给多个独立 worker 时使用。触发词包括"并行推进""开多个""同时推进""派 worker""多 agent 并行""开 worker""tmux 启动""独立 session""防逃逸""分派任务""一起做"。不要用于单个短任务、跨平台任务状态管理、或 Git 分支/提交/PR/merge 安全规则。
tools
本技能应在 GitHub 项目发布新版本时使用,覆盖版本号管理、CHANGELOG 同步、Release Notes 撰写、tag 创建、CI 构建监控、发布验证和历史清理全流程。适用于桌面应用、CLI 工具、Web 应用、库/SDK 等任何基于 GitHub 的软件项目。当用户提到"发布"、"release"、"打 tag"、"新版本"、"更新版本号"、"写 release notes"、"发布失败了"、"CI 挂了"时触发。不要用于非 GitHub 项目(如纯 GitLab / Gitea 项目)或无需 CI 的手动发布场景。
content-media
本技能应在用户需要 OCR、扫描识别、图片文字识别、文档识别,或将 PDF、图片、Office 文档、URL 转换为 Markdown 时使用。检测到法律材料时可进行保守的法律术语与文书结构优化。不要用于法律事实判断、补写缺失内容、语义改写、印章深度识别或图表实体分析。
tools
将 monorepo 中的子目录通过 git subtree 推送到独立 GitHub 仓库。支持注册清单、变更自动检测、增量推送。本技能应在用户提交涉及已注册子项目的变更后,或手动请求推送到独立仓库时使用。不要用于初次创建 monorepo 或管理 git submodule。