gpt-image-gen/SKILL.md
生图 / 生成图片 / 画图 — 用 OpenAI gpt-image-2 生成图像。支持文生图、参考图生图 (img2img)、蒙版修补 (inpainting)。当用户要求用 GPT 画图、OpenAI 生图、gpt-image-2、文+图生图、参考图片生成、img2img、inpainting 时必加载此技能。Auth 自动继承 OPENAI_API_KEY / Codex OAuth (Pi/Codex) / .env / config.yaml。
npx skillsauth add ninehills/skills gpt-image-genInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
调用 OpenAI gpt-image-2 模型生图。单一脚本覆盖三种模式:
| 模式 | 触发条件 | 后端 |
|------|---------|---------|
| 文生图 | 仅 -p | API key → images.generate / Codex OAuth → Responses API |
| 参考图编辑 | -p + -i | API key → images.edit / Codex OAuth → Responses API (input_image) |
| 蒙版修补 | -p + -i + -m | 仅 API key → images.edit;Codex 不支持 |
Auth 自动选择: 检测到 JWT token (eyJ...) 时走 Codex Responses API (chatgpt.com/backend-api/codex),否则走标准 OpenAI REST API (api.openai.com)。
只要用户提到以下任一关键词/场景,立即加载:
特别注意: 如果用户发送了图片附件并说「用这个图生成」「基于这张图」「把这张图改成」等,这就是 img2img 场景——必须加载此技能,因为内置 image_generate 不支持图片输入。
pip install openai python-dotenv
openai:API 调用python-dotenv:自动加载 ./.env 和 ~/.env(可选,没有也能用)脚本按以下优先级找 API key:
OPENAI_API_KEY 环境变量./.env 文件(当前目录)~/.env 文件(家目录)~/.pi/agent/auth.json → openai-codex.access)hermes auth codex 登录过的)config.yaml → image_gen.openai.api_key--api-key 手动传入⚠️ Codex token 限制: Codex OAuth token/pi auth token 只能认证 chatgpt.com/backend-api/codex,不能直连 api.openai.com。如果 auth 解析落到 Codex token(优先级 4-5),脚本会拿它当标准 API key 去打 api.openai.com/v1/images/*,返回 401 Missing scopes: api.model.images.request。文生图请用 Hermes 内置 image_generate 工具(走 Codex backend);img2img / inpainting(images.edit)必须有真正的 OPENAI_API_KEY。详见 references/auth-pitfalls.md。
python3 scripts/gen.py -p "a cat astronaut on the moon" --quality high
# 多张
python3 scripts/gen.py -p "..." -n 4
# 单参考图
python3 scripts/gen.py -p "make it cyberpunk style" -i photo.jpg
# 多参考图
python3 scripts/gen.py -p "collab poster" -i cat.png -i logo.png -f out.png
# opaque 区域保留,transparent 区域重绘
python3 scripts/gen.py -p "replace sky with aurora" -i photo.jpg -m sky_mask.png
python3 scripts/gen.py -p "..." --size 2k --quality high --format webp --compression 85
python3 scripts/gen.py -p "..." --size 3840x2160 --quality high
参考文件:references/templates.md(833 行,16 类工业级模板 + 防坑指南)。
工作流:Agent 读 templates.md → 匹配合适的模板类别 → 用模板结构组装完整 prompt → 调 gen.py 生图。
Agent 加载 skill 后,需按需读取 references/templates.md 全文或定位到相关章节。模板覆盖 UI、信息图、海报、电商、品牌、摄影、角色、历史、工业设计等 16 个类别,每类有标准模板 + 防坑指南。
Agent 的典型流程:
clarify 展示优化后的 prompt,等用户确认gen.py -p "<prompt>" --quality high如果用户给的 prompt 已经很详细,则跳过优化,直接调 gen.py。
⚠️ 强制确认规则:
clarify 展示修改后的完整 prompt 让用户确认,确认后才能调 gen.py
| 参数 | 简写 | 类型 | 默认值 | 说明 |
|------|------|------|--------|------|
| --prompt | -p | str | 必填 | 提示词 |
| --image | -i | path | — | 参考图,可重复传多个 |
| --mask | -m | path | — | Alpha 通道蒙版 PNG(需配合 -i) |
| --output | -f | path | 自动命名 | 输出文件路径 |
| --n | -n | int | 1 | 生成张数 |
| --model | | str | gpt-image-2 | 模型 ID |
| --quality | -q | literal | high | 见下方质量策略 |
| --size | -s | literal | 1024x1024 | 见下方尺寸表 |
| --format | | literal | png | png / jpeg / webp |
| --compression | | int | — | 压缩级别 0-100(jpeg/webp) |
| --moderation | | literal | low | low / auto |
| --background | | literal | — | opaque / auto |
| --input-fidelity | | literal | — | low / high(gpt-image-2 自动剔除) |
| --api-key | | str | 自动解析 | 手动指定 API key |
| --json | | flag | — | JSON 格式输出 |
| --verbose | -v | flag | — | 详细日志 |
| 快捷名 | 分辨率 | 适用场景 |
|--------|--------|---------|
| 1k / square | 1024×1024 | 正方形,社交头像 |
| 2k | 2048×2048 | 高清印刷 |
| 4k | 3840×2160 | 宽屏电影级 |
| landscape | 1536×1024 | 横版照片/游戏截图 |
| portrait | 1024×1536 | 竖版海报/手机壁纸 |
| wide | 2048×1152 | 宽幅横版 |
| tall | 2160×3840 | 超长竖版 |
也支持自定义 WxH:--size 1536x1536。约束:16px 倍数,总像素 655,360 ~ 8,294,400,宽高比 ≤ 3:1。
| 质量 | 速度 | 成本(1024²) | 何时用 |
|------|------|------------|--------|
| auto | 自适应 | 自适应 | 让 API 自行判断 |
| low | ~15s | ~$0.006 | 快速草稿、批量探索、构图检查 |
| medium | ~40s | ~$0.05 | 风格测试、日常浏览 |
| high | ~2min | ~$0.21 | 中文字体、海报、信息图、正式交付 |
默认 high。Agent 应根据场景自动选档:探索用 low、风格尝试用 medium、最终交付用 high。
── PROMPT ── + prompt + ── IMAGE ── + 图片路径 + ── PARAMS ── + 参数 + prompt 文本~/.hermes/cache/images/(--output 可覆盖).prompt.txt 副文件,与图片同名、同路径,记录完整 prompt 和所有参数,方便复用--json 模式输出结构化 JSON| 码 | 含义 | 处理 | |----|------|------| | 0 | 成功 | 输出路径到 stdout | | 1 | API 错误 | 检查 moderation/rate-limit/content-policy 返回信息 | | 2 | 参数错误 | 缺少 API key、mask 无 image、n<1 等 |
gpt-image-1.5)--input-fidelity 在 gpt-image-2 上会自动剔除(模型拒绝该参数)--moderation 仅适用于 images.generate,images.edit 路径自动剔除--mask 蒙版修补、不支持 -n 多张--mask 必须是带 alpha 通道的 PNG,opaque=保留,transparent=重绘references/codex-backend.md~/.hermes/image_cache/img_*.jpegreferences/test-report.mdvision_analyze 失败,gen.py -i 的 img2img 仍然正常工作。Agent 无需先「看懂」图片即可做参考图编辑——图像模型独立处理视觉理解。若确实需要了解原图内容来写 prompt,可用 PIL 做颜色/边缘分析辅助判断构图。<|end▁of▁thinking|><||DSML||parameter name="old_string" string="true">## 注意事项
gpt-image-1.5)--input-fidelity 在 gpt-image-2 上会自动剔除(模型拒绝该参数)--moderation 仅适用于 images.generate,images.edit 路径自动剔除--mask 蒙版修补、不支持 -n 多张--mask 必须是带 alpha 通道的 PNG,opaque=保留,transparent=重绘references/codex-backend.md~/.hermes/image_cache/img_*.jpegreferences/test-report.mddevelopment
React and Next.js performance optimization guidelines from Vercel Engineering. This skill should be used when writing, reviewing, or refactoring React/Next.js code to ensure optimal performance patterns. Triggers on tasks involving React components, Next.js pages, data fetching, bundle optimization, or performance improvements.
tools
UI/UX design intelligence for web and mobile. Includes 50+ styles, 161 color palettes, 57 font pairings, 161 product types, 99 UX guidelines, and 25 chart types across 10 stacks (React, Next.js, Vue, Svelte, SwiftUI, React Native, Flutter, Tailwind, shadcn/ui, and HTML/CSS). Actions: plan, build, create, design, implement, review, fix, improve, optimize, enhance, refactor, and check UI/UX code. Projects: website, landing page, dashboard, admin panel, e-commerce, SaaS, portfolio, blog, and mobile app. Elements: button, modal, navbar, sidebar, card, table, form, and chart. Styles: glassmorphism, claymorphism, minimalism, brutalism, neumorphism, bento grid, dark mode, responsive, skeuomorphism, and flat design. Topics: color systems, accessibility, animation, layout, typography, font pairing, spacing, interaction states, shadow, and gradient. Integrations: shadcn/ui MCP for component search and examples.
data-ai
Triage issues through a state machine driven by triage roles. Use when user wants to create an issue, triage issues, review incoming bugs or feature requests, prepare issues for an AFK agent, or manage issue workflow.
tools
Turn the current conversation context into a PRD and publish it to the project issue tracker. Use when user wants to create a PRD from the current context.