plugins/steroids/skills/clipping/SKILL.md
将网页文章(含微信公众号等 JS 渲染页面)保存为本地 Markdown 笔记。自动处理图片中的文字信息——对信息图、表格截图等使用 PaddleOCR 提取中英文文本并重构为 Markdown 表格。
npx skillsauth add kanlac/agent-steroids clippingInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
微信公众号等 JS 渲染页面,WebFetch 会返回空内容。必须通过当前可用的 headed browser provider(例如 chrome 插件的 cdp-chrome、Codex Chrome plugin,或 agent 原生 browser-use)加载页面,等待渲染完成后提取正文、标题、作者、发布日期和图片 URL。clipping 不硬依赖 chrome 插件;只有当前环境没有等价有头浏览器能力时,才建议安装/启用它。
提取时注意区分正文内容和页面装饰元素(广告、推荐阅读、底部导航等)。
部分文章的主要信息以图片形式呈现——信息图、排行榜、对比表格等。这类图片通常有明显特征:尺寸较大(特别是高度远超普通配图)、位于正文核心位置。
识别到这类图片后,不能只插入图片链接,需要提取其中的文字信息。
对包含文字/表格的关键图片,使用 PaddleOCR(PP-OCRv5,lang='ch')提取文本。
环境注意事项:
predict() 方法,不是 ocr();save_path 参数仅限 CLI 模式PADDLE_PDX_DISABLE_MODEL_SOURCE_CHECK=True 跳过连通性检查,避免长时间卡住超长图片处理: 图片高度超过 4000px 时,OCR 精度会下降。将图片按 ~2000px 高度分段裁剪后逐段识别,效果更好。
表格结构重建: OCR 返回的是带坐标的文本块列表。利用 x 坐标区分列、y 坐标判断行归属,可以重建表格结构。典型策略:用左侧文本(如公司名、行标题)作为行锚点,右侧文本作为对应内容。具体的列分界阈值需要根据实际图片布局调整。
将文章正文和 OCR 提取的表格内容合并为一份 Markdown 文件:
保存到用户指定的目录。文件名从文章标题生成,去除特殊字符。若用户未指定目录,询问保存位置。
devops
自建机场(代理服务端)搭建与运维。涵盖 VPS 初始化/加固、3X-UI 面板、Xray VLESS Reality+Vision 入站、多用户独立订阅(UUID/subId/到期/续期)、把节点渲染成 Clash/Mihomo 订阅 YAML、Profile 显示名与到期时间下发、域名/ACME 证书、出口测速、IP 被墙/被滥用风险判断、备份恢复。用户要在 VPS 上部署或维护自建节点/机场、调试 3X-UI 订阅、Reality 入站、订阅链接显示名/到期、面板安全、证书申请、速度低或 IP 风险时用这个 skill。客户端 Clash Verge / mihomo 的配置即代码、规则不命中、DNS 泄漏排查见 clash-verge-config skill。
development
Generate a local HTML dashboard for auditing installed Skills, token usage, description token budgets, duplicate Skill names, Skill paths, and selected Skill exports. Use when the user wants to inspect many Skills, decide which Skills to disable, compare duplicates, preview SKILL.md contents, sort by token usage, or export selected Skills as JSON.
tools
Turn a YouTube link into a polished single-file bilingual (Chinese + original) transcript reading page. Use when the user gives a YouTube URL and asks to "转录" "做转录稿" "生成转录页面" "中英对照" "bilingual transcript" "transcribe this video", or wants a readable HTML transcript with clickable timestamps, chapter navigation, highlighted key points, and proper-noun annotations. Fetches captions + chapters via yt-dlp, the agent translates and curates, then a script renders the HTML.
development
Use when a user asks the agent to "learn" from a file, example, correction, failed workflow, or feedback and persist that learning into skills or agent instructions. Guides semantic skill refactoring: extract the transferable behavior, update the owning skill so it becomes clearer and easier to execute, avoid append-only note dumping, and decide when not to create new reference files.