Web Automation Builder

被动录制用户在浏览器中的操作，生成可重放的自动化工作流。

核心模式：用户自由操作 + 系统被动录制（非 LLM 驱动）。

安装 / 更新

# 安装（安装依赖 + 构建）
node skills/web-automation-builder/tool.js install

# 全局安装（复制到 ~/.cursor/skills/ + 安装依赖）
node skills/web-automation-builder/tool.js install '{"target":"~/.cursor/skills/web-automation-builder"}'

# 更新（从源码覆盖 + 清理重装）
node skills/web-automation-builder/tool.js update '{"target":"~/.cursor/skills/web-automation-builder"}'

前置依赖

| 依赖 | 说明 | 安装方式 | |------|------|----------| | Playwright Skill | 浏览器启动和操作命令 | ~/.cursor/skills/playwright/ | | playwright-core | CDP 连接库 | npm install（package.json 已声明） |

CLI 命令

node skills/web-automation-builder/tool.js <command> '<JSON参数>'

录制控制

# 开始被动录制（启动浏览器 + 注入 DOM 监听 + 启动网络监听）
node tool.js record '{"name":"部署后端代码"}'

# 查看录制状态（已收集的事件数量）
node tool.js status '{}'

# 停止录制（返回原始录制数据：DOM 事件 + API 请求）
node tool.js stop '{}'

# 保存 LLM 分析后的结构化工作流
node tool.js save '{"id":"wf-xxx","workflow":{...}}'

工作流管理

node tool.js list '{}'
node tool.js show '{"id":"wf-xxx"}'
node tool.js delete '{"id":"wf-xxx"}'

重放

# 批量重放（快速路径）
node tool.js replay '{"id":"wf-xxx"}'
node tool.js replay '{"id":"wf-xxx","params":{"username":"admin","password":"123"}}'

# 从指定步骤恢复
node tool.js replay '{"id":"wf-xxx","startFrom":3,"params":{...}}'

LLM-First 逐步重放（推荐）

# 获取步骤列表（含 intent、locators），LLM 阅读后决定每步执行策略
node tool.js replaySteps '{"id":"wf-xxx"}'

# 执行单个步骤（1-based）
node tool.js replayStep '{"id":"wf-xxx","step":1,"params":{"key":"value"}}'

LLM 根据每步的 intent 和置信度，选择用 replayStep 工具执行或直接用 playwright 手动操作。

录制期间辅助操作（Phase 4）

Agent 在录制期间可以通过 exec 命令直接调用 Playwright 辅助用户操作：

# 导航到特定 URL
node tool.js exec '{"command":"navigate","args":{"url":"https://example.com"}}'

# 点击元素
node tool.js exec '{"command":"click","args":{"selector":"#some-button"}}'

# 填写表单
node tool.js exec '{"command":"type","args":{"selector":"#input","text":"value"}}'

生成独立 Skill

# 默认：生成 Skill（SKILL.md + tool.js + workflow.json + package.json）
node tool.js generate '{"id":"wf-xxx","skillName":"deploy-staging","target":"~/.cursor/skills/deploy-staging"}'

# 同时生成 Playwright 脚本（Skill 产物 + deploy-staging.js）
node tool.js generate '{"id":"wf-xxx","skillName":"deploy-staging","target":"~/.cursor/skills/deploy-staging","includePlaywright":true}'

# 仅生成 Playwright 脚本（不生成 Skill 产物）
node tool.js generate '{"id":"wf-xxx","skillName":"deploy-staging","target":"./scripts","format":"playwright"}'

导出 Playwright 脚本（单文件）

node tool.js export '{"id":"wf-xxx","output":"./my-automation.js"}'

自主决策指南

LLM 在录制流程中的行为协议：

录制流程（LLM 必须严格按此顺序执行）

1. 用户请求录制 → 调用 record 命令
2. record 返回成功（包含 id、pid）→ 立即执行步骤 3
3. 弹出 agent-interact wait 对话框（见下方代码）
   - 浏览器窗口会自动打开，用户可直接操作
   - 用户点击对话框"确认"按钮表示操作完成
4. 用户确认后 → 调用 stop 命令 → 获取 rawEvents
5. LLM 分析 rawEvents → 生成分析报告
6. 弹出 agent-interact custom 对话框展示分析报告（见下方代码）
   - 展示操作流程摘要、事件统计、可参数化的值
   - 提供文本输入区域让用户补充说明
   - 用户选择"生成并保存"或"不需要"
7. 用户确认后 → 生成结构化工作流 JSON → 调用 save 保存
8. 弹出 agent-interact custom 对话框询问产物生成（见下方代码）
   - 提供生成模式选择（Skill / Skill+Playwright / 仅Playwright）
   - 提供 Skill 名称和目标路径输入
   - 用户选择"生成"或"跳过"
9. 用户确认后 → 调用 generate 命令生成产物

重要：步骤 8 必须通过 agent-interact 弹框交互，禁止在对话文本中提问。所有需要用户选择或输入的环节都应使用 agent-interact。

agent-interact 强制交互规则

核心原则：在整个录制流程中，所有需要用户选择、确认或输入的环节，必须通过 agent-interact 弹框完成。禁止在对话文本中提问或列出选项让用户回复。

违反此规则的典型错误：

❌ 在对话中写"需要我生成 Skill 吗？请选择：1. Skill 2. Playwright"
❌ 在对话中写"请告诉我 Skill 名称和目标路径"
✅ 调用 agent-interact dialog 弹出选择/输入对话框

必须使用 agent-interact 的环节：

步骤 3：录制等待（wait 类型）
步骤 6：分析报告展示 + 确认（custom 类型）
步骤 8：产物选择 + 参数输入（custom 类型）

调用方式（选择一种可用的路径）：

# 方式 1：项目内 skill
node skills/agent-interact/tool.js dialog '<JSON>'

# 方式 2：全局安装的 skill
node ~/.cursor/skills/agent-interact/tool.js dialog '<JSON>'

降级策略：仅当 agent-interact skill 完全不存在时，才降级为对话模式。

注意：

LLM 不应在 record 和 agent-interact 之间插入任何其他操作或对话。
agent-interact dialog 命令是阻塞的（等用户点击才返回），应设置足够长的超时等待（如 block_until_ms: 3600000），不要用 sleep + 轮询 方式。

录制等待对话框（步骤 3）

record 命令返回成功后，必须立即弹出等待对话框：

node skills/agent-interact/tool.js dialog '{"type":"wait","title":"🔴 正在录制浏览器操作","message":"浏览器已打开，请在浏览器中完成所有操作。\n操作完成后点击下方按钮停止录制。","confirmText":"✅ 操作完成，停止录制","timeout":3600}'

分析报告对话框（步骤 6）

stop 命令返回后，LLM 分析 rawEvents 并通过 agent-interact custom 对话框展示报告：

node skills/agent-interact/tool.js dialog '{"type":"custom","schemaVersion":"1.0","title":"📊 录制分析报告","timeout":1200,"content":[{"kind":"kv","items":[{"key":"录制名称","value":"<name>"},{"key":"时长","value":"<duration>"},{"key":"DOM 事件","value":"<domCount>"},{"key":"网络请求","value":"<networkCount>"}]},{"kind":"divider"},{"kind":"heading","value":"操作流程","level":3},{"kind":"text","value":"<步骤列表>"},{"kind":"divider"},{"kind":"heading","value":"可参数化的值","level":3},{"kind":"text","value":"<参数列表>"},{"kind":"divider"},{"kind":"textarea","id":"notes","label":"补充说明（可选）","placeholder":"如有需要补充的信息请在此输入..."}],"actions":[{"id":"save","label":"✅ 生成并保存","submit":true},{"id":"cancel","label":"❌ 不需要"}]}'

用户点击"生成并保存"后，LLM 根据 rawEvents + 用户补充信息生成工作流 JSON 并保存。

产物选择对话框（步骤 8）

save 命令成功后，必须立即弹出 agent-interact custom 对话框让用户选择产物形态：

node skills/agent-interact/tool.js dialog '{"type":"custom","schemaVersion":"1.0","title":"🎯 生成产物选择","timeout":300,"content":[{"kind":"kv","items":[{"key":"工作流名称","value":"<name>"},{"key":"工作流 ID","value":"<id>"},{"key":"步骤数","value":"<stepCount>"}]},{"kind":"divider"},{"kind":"heading","value":"选择生成方式","level":3},{"kind":"select","id":"generateMode","label":"生成模式","options":["Skill 产物（SKILL.md + tool.js + workflow.json + package.json）","Skill + Playwright 脚本（两者兼有）","仅 Playwright 脚本（不生成 Skill）"],"default":"Skill + Playwright 脚本（两者兼有）"},{"kind":"divider"},{"kind":"input","id":"skillName","label":"Skill 名称","placeholder":"例如：deploy-staging"},{"kind":"input","id":"targetPath","label":"目标路径","placeholder":"例如：~/.cursor/skills/deploy-staging"}],"actions":[{"id":"generate","label":"✅ 生成","submit":true},{"id":"skip","label":"⏭️ 跳过","variant":"outline","submit":false}]}'

用户选择后，LLM 根据 generateMode 字段调用 generate 命令：

"Skill 产物..." → generate '{"id":"<id>","skillName":"<name>","target":"<path>"}'
"Skill + Playwright..." → generate '{"id":"<id>","skillName":"<name>","target":"<path>","includePlaywright":true}'
"仅 Playwright..." → generate '{"id":"<id>","skillName":"<name>","target":"<path>","format":"playwright"}'

如果用户未填写 skillName 或 targetPath，LLM 应根据工作流名称自动生成合理的默认值。

custom dialog schema 强制约束

调用 agent-interact custom 对话框时，必须严格遵守以下规则：

必须包含 "schemaVersion":"1.0"
content 数组中每个节点使用 kind 字段（不是 type），值的字段用 value（不是 text）
按钮使用 actions 数组（不是 buttons），每个 action 包含 id、label，可选 submit、variant
可用的 kind 值：text、heading、divider、alert、badge、kv、progress、chart、code、image、table、input、select、checkbox、textarea、row、column、grid、section、group

错误处理：调用 agent-interact dialog 后，必须检查返回结果。如果返回 "error": "Invalid custom schema" 或 exit code 非 0，LLM 应：

读取 details 中的错误信息
根据错误修正 JSON schema（常见错误：type → kind，text → value，buttons → actions，缺少 schemaVersion）
重新调用 dialog 命令

何时建议录制

| 场景 | 操作 | |------|------| | 用户要求执行重复性浏览器操作 | 主动建议录制 | | 用户说"录制"、"记录操作"、"学习操作" | 执行录制流程 | | 录制完成后 | 弹出产物选择对话框 | | 用户说"重放"、"再执行一次" | 执行 replay |

LLM 分析 rawEvents 的要求

stop 返回的 rawEvents 包含 DOM 事件和网络请求的原始数据。LLM 需要：

过滤噪音：去除无关点击（空白区域）、无意义滚动
合并输入：连续的 input 事件合并为单次填写操作；同一输入框的多次 change/input 事件只保留最终值
捕获操作意图（关键，影响 LLM 自愈能力）：
- 每步必须包含 intent 字段，格式：「[在什么上下文中] + 操作目标 + [期望产生的页面变化]」
- 示例（正确）：「在部署任务列表第一行，点击 Deploy 按钮，以打开部署配置对话框」
- 示例（不足）：「点击 Deploy」（缺少上下文和期望结果，LLM 无法用于自愈）
- description 字段保留简短描述，intent 字段承载完整语义
识别参数：将可变输入值替换为 {{paramName}}
关联 API：将 DOM 操作与触发的 API 请求关联
生成等待条件（waitAfter 字段，优先于固定时间等待）：
- 导航后：等待目标页面关键元素出现 { "type": "selector", "value": ".some-key-element" }
- 点击触发 modal：等待 modal 容器出现 { "type": "selector", "value": ".modal-container" }
- 提交后等待完成：等待加载状态消失 { "type": "selectorGone", "value": ".loading-spinner" }
- 页面跳转：等待 URL 变化 { "type": "url", "value": "/target-path" }
识别 UI 容器模式：
- 点击按钮 → 弹出 modal：后续步骤的 intent 和 locator 应说明「在弹出对话框中」
- 下拉菜单展开：选项的 intent 应说明「在展开的下拉菜单中」
- 表格行操作：intent 应包含行锚定信息，如「在显示 job-name-xxx 的那一行中」
事件去重：同一元素连续多次 click 合并为一次；导航后 500ms 内的误触点击丢弃
保留 locator 元数据：
- roleName：录制脚本自动提取的 accessible name（aria-label / label[for] / aria-labelledby），生成 workflow 时必须保留
- context：录制脚本自动检测的容器上下文（modal / dropdown / table-row / form），生成 workflow 时必须保留在 locators 中
- 这两个字段是 buildLocatorChain 作用域限定和精确匹配的关键输入

分析后生成的工作流 JSON 通过 save 命令保存。

录制数据说明

DOM 事件类型

| type | 说明 | 关键字段 | |------|------|----------| | click | 用户点击 | locators | | input | 文本输入 | locators, value | | select | 下拉选择 | locators, value, selectedText | | check | 勾选复选框 | locators, checked | | submit | 表单提交 | locators | | keydown | 特殊按键（Enter/Tab/Escape） | key, modifiers | | navigation | 页面导航 | url / fromUrl, toUrl |

网络请求

| 字段 | 说明 | |------|------| | request.url | 请求 URL | | request.method | HTTP 方法 | | request.body | 请求体（已解析 JSON） | | response.status | 响应状态码 | | response.body | 响应体（文本类 MIME，≤512KB） |

自动过滤静态资源（.js/.css/.png 等）和 tracking 请求。

参数化语法

工作流中的可变值使用 {{paramName}} 标记：

{
  "command": "fill",
  "args": { "text": "{{username}}" },
  "locators": { "css": "#username", "placeholder": "Username" }
}

重放时通过 params 注入：

node tool.js replay '{"id":"wf-xxx","params":{"username":"admin"}}'

导出为 Playwright 脚本时，参数通过环境变量注入：

USERNAME=admin PASSWORD=secret node deploy-staging.js

产物形态

| 形态 | 命令 | 适合场景 | |------|------|----------| | JSON 工作流 | save | 临时或低频操作 | | 独立 Skill | generate | 高频复用、跨项目 | | Skill + Playwright 脚本 | generate + includePlaywright | 两种方式都需要 | | 仅 Playwright 脚本 | generate + format:"playwright" | 只需脚本，不需要 Skill | | 单文件 Playwright 脚本 | export | 快速导出到指定路径 |

Playwright 脚本特性：

可直接 node script.js 运行，不依赖 Cursor 或 Playwright Skill
与 replayer.js 一致的 locator 链（testId > ariaLabel > placeholder > text > role > id > css）
支持 context 作用域（modal/dropdown）
支持 waitAfter 条件
每步 try-catch + 失败截图
参数通过环境变量注入

数据存储

~/.cursor/skills/
├── web-automation-builder/           # Skill 代码
└── web-automation-builder-data/      # 数据目录
    ├── workflows/                    # 已保存的结构化工作流 JSON
    ├── recordings/                   # 录制数据（按日期归档）
    │   ├── 2026-02-23-wf-xxx.json   # 精简 summary（DOM事件+导航+API请求）
    │   └── ...
    ├── chrome-profile/                # Chrome 用户数据（认证缓存持久化）
    └── .recording.json               # 录制中的临时状态（stop 后删除）

触发词

录制浏览器操作、开始录制、帮我录制
重放工作流、再执行一次、用新参数执行
生成 Skill、做成 Skill、以后直接用
导出脚本、导出为 JS
查看录制、工作流列表

Web Automation Builder

被动录制用户在浏览器中的操作，生成可重放的自动化工作流。

核心模式：用户自由操作 + 系统被动录制（非 LLM 驱动）。

安装 / 更新

# 安装（安装依赖 + 构建）
node skills/web-automation-builder/tool.js install

# 全局安装（复制到 ~/.cursor/skills/ + 安装依赖）
node skills/web-automation-builder/tool.js install '{"target":"~/.cursor/skills/web-automation-builder"}'

# 更新（从源码覆盖 + 清理重装）
node skills/web-automation-builder/tool.js update '{"target":"~/.cursor/skills/web-automation-builder"}'

前置依赖

CLI 命令

node skills/web-automation-builder/tool.js <command> '<JSON参数>'

录制控制

# 开始被动录制（启动浏览器 + 注入 DOM 监听 + 启动网络监听）
node tool.js record '{"name":"部署后端代码"}'

# 查看录制状态（已收集的事件数量）
node tool.js status '{}'

# 停止录制（返回原始录制数据：DOM 事件 + API 请求）
node tool.js stop '{}'

# 保存 LLM 分析后的结构化工作流
node tool.js save '{"id":"wf-xxx","workflow":{...}}'

工作流管理

node tool.js list '{}'
node tool.js show '{"id":"wf-xxx"}'
node tool.js delete '{"id":"wf-xxx"}'

重放

# 批量重放（快速路径）
node tool.js replay '{"id":"wf-xxx"}'
node tool.js replay '{"id":"wf-xxx","params":{"username":"admin","password":"123"}}'

# 从指定步骤恢复
node tool.js replay '{"id":"wf-xxx","startFrom":3,"params":{...}}'

LLM-First 逐步重放（推荐）

# 获取步骤列表（含 intent、locators），LLM 阅读后决定每步执行策略
node tool.js replaySteps '{"id":"wf-xxx"}'

# 执行单个步骤（1-based）
node tool.js replayStep '{"id":"wf-xxx","step":1,"params":{"key":"value"}}'

LLM 根据每步的 intent 和置信度，选择用 replayStep 工具执行或直接用 playwright 手动操作。

录制期间辅助操作（Phase 4）

Agent 在录制期间可以通过 exec 命令直接调用 Playwright 辅助用户操作：

# 导航到特定 URL
node tool.js exec '{"command":"navigate","args":{"url":"https://example.com"}}'

# 点击元素
node tool.js exec '{"command":"click","args":{"selector":"#some-button"}}'

# 填写表单
node tool.js exec '{"command":"type","args":{"selector":"#input","text":"value"}}'

生成独立 Skill

# 默认：生成 Skill（SKILL.md + tool.js + workflow.json + package.json）
node tool.js generate '{"id":"wf-xxx","skillName":"deploy-staging","target":"~/.cursor/skills/deploy-staging"}'

# 同时生成 Playwright 脚本（Skill 产物 + deploy-staging.js）
node tool.js generate '{"id":"wf-xxx","skillName":"deploy-staging","target":"~/.cursor/skills/deploy-staging","includePlaywright":true}'

# 仅生成 Playwright 脚本（不生成 Skill 产物）
node tool.js generate '{"id":"wf-xxx","skillName":"deploy-staging","target":"./scripts","format":"playwright"}'

导出 Playwright 脚本（单文件）

node tool.js export '{"id":"wf-xxx","output":"./my-automation.js"}'

自主决策指南

LLM 在录制流程中的行为协议：

录制流程（LLM 必须严格按此顺序执行）

1. 用户请求录制 → 调用 record 命令
2. record 返回成功（包含 id、pid）→ 立即执行步骤 3
3. 弹出 agent-interact wait 对话框（见下方代码）
   - 浏览器窗口会自动打开，用户可直接操作
   - 用户点击对话框"确认"按钮表示操作完成
4. 用户确认后 → 调用 stop 命令 → 获取 rawEvents
5. LLM 分析 rawEvents → 生成分析报告
6. 弹出 agent-interact custom 对话框展示分析报告（见下方代码）
   - 展示操作流程摘要、事件统计、可参数化的值
   - 提供文本输入区域让用户补充说明
   - 用户选择"生成并保存"或"不需要"
7. 用户确认后 → 生成结构化工作流 JSON → 调用 save 保存
8. 弹出 agent-interact custom 对话框询问产物生成（见下方代码）
   - 提供生成模式选择（Skill / Skill+Playwright / 仅Playwright）
   - 提供 Skill 名称和目标路径输入
   - 用户选择"生成"或"跳过"
9. 用户确认后 → 调用 generate 命令生成产物

重要：步骤 8 必须通过 agent-interact 弹框交互，禁止在对话文本中提问。所有需要用户选择或输入的环节都应使用 agent-interact。

agent-interact 强制交互规则

违反此规则的典型错误：

❌ 在对话中写"需要我生成 Skill 吗？请选择：1. Skill 2. Playwright"
❌ 在对话中写"请告诉我 Skill 名称和目标路径"
✅ 调用 agent-interact dialog 弹出选择/输入对话框

必须使用 agent-interact 的环节：

步骤 3：录制等待（wait 类型）
步骤 6：分析报告展示 + 确认（custom 类型）
步骤 8：产物选择 + 参数输入（custom 类型）

调用方式（选择一种可用的路径）：

# 方式 1：项目内 skill
node skills/agent-interact/tool.js dialog '<JSON>'

# 方式 2：全局安装的 skill
node ~/.cursor/skills/agent-interact/tool.js dialog '<JSON>'

降级策略：仅当 agent-interact skill 完全不存在时，才降级为对话模式。

注意：

LLM 不应在 record 和 agent-interact 之间插入任何其他操作或对话。
agent-interact dialog 命令是阻塞的（等用户点击才返回），应设置足够长的超时等待（如 block_until_ms: 3600000），不要用 sleep + 轮询 方式。

录制等待对话框（步骤 3）

record 命令返回成功后，必须立即弹出等待对话框：

node skills/agent-interact/tool.js dialog '{"type":"wait","title":"🔴 正在录制浏览器操作","message":"浏览器已打开，请在浏览器中完成所有操作。\n操作完成后点击下方按钮停止录制。","confirmText":"✅ 操作完成，停止录制","timeout":3600}'

分析报告对话框（步骤 6）

stop 命令返回后，LLM 分析 rawEvents 并通过 agent-interact custom 对话框展示报告：

node skills/agent-interact/tool.js dialog '{"type":"custom","schemaVersion":"1.0","title":"📊 录制分析报告","timeout":1200,"content":[{"kind":"kv","items":[{"key":"录制名称","value":"<name>"},{"key":"时长","value":"<duration>"},{"key":"DOM 事件","value":"<domCount>"},{"key":"网络请求","value":"<networkCount>"}]},{"kind":"divider"},{"kind":"heading","value":"操作流程","level":3},{"kind":"text","value":"<步骤列表>"},{"kind":"divider"},{"kind":"heading","value":"可参数化的值","level":3},{"kind":"text","value":"<参数列表>"},{"kind":"divider"},{"kind":"textarea","id":"notes","label":"补充说明（可选）","placeholder":"如有需要补充的信息请在此输入..."}],"actions":[{"id":"save","label":"✅ 生成并保存","submit":true},{"id":"cancel","label":"❌ 不需要"}]}'

用户点击"生成并保存"后，LLM 根据 rawEvents + 用户补充信息生成工作流 JSON 并保存。

产物选择对话框（步骤 8）

save 命令成功后，必须立即弹出 agent-interact custom 对话框让用户选择产物形态：

node skills/agent-interact/tool.js dialog '{"type":"custom","schemaVersion":"1.0","title":"🎯 生成产物选择","timeout":300,"content":[{"kind":"kv","items":[{"key":"工作流名称","value":"<name>"},{"key":"工作流 ID","value":"<id>"},{"key":"步骤数","value":"<stepCount>"}]},{"kind":"divider"},{"kind":"heading","value":"选择生成方式","level":3},{"kind":"select","id":"generateMode","label":"生成模式","options":["Skill 产物（SKILL.md + tool.js + workflow.json + package.json）","Skill + Playwright 脚本（两者兼有）","仅 Playwright 脚本（不生成 Skill）"],"default":"Skill + Playwright 脚本（两者兼有）"},{"kind":"divider"},{"kind":"input","id":"skillName","label":"Skill 名称","placeholder":"例如：deploy-staging"},{"kind":"input","id":"targetPath","label":"目标路径","placeholder":"例如：~/.cursor/skills/deploy-staging"}],"actions":[{"id":"generate","label":"✅ 生成","submit":true},{"id":"skip","label":"⏭️ 跳过","variant":"outline","submit":false}]}'

用户选择后，LLM 根据 generateMode 字段调用 generate 命令：

"Skill 产物..." → generate '{"id":"<id>","skillName":"<name>","target":"<path>"}'
"Skill + Playwright..." → generate '{"id":"<id>","skillName":"<name>","target":"<path>","includePlaywright":true}'
"仅 Playwright..." → generate '{"id":"<id>","skillName":"<name>","target":"<path>","format":"playwright"}'

如果用户未填写 skillName 或 targetPath，LLM 应根据工作流名称自动生成合理的默认值。

custom dialog schema 强制约束

调用 agent-interact custom 对话框时，必须严格遵守以下规则：

必须包含 "schemaVersion":"1.0"
content 数组中每个节点使用 kind 字段（不是 type），值的字段用 value（不是 text）
按钮使用 actions 数组（不是 buttons），每个 action 包含 id、label，可选 submit、variant
可用的 kind 值：text、heading、divider、alert、badge、kv、progress、chart、code、image、table、input、select、checkbox、textarea、row、column、grid、section、group

错误处理：调用 agent-interact dialog 后，必须检查返回结果。如果返回 "error": "Invalid custom schema" 或 exit code 非 0，LLM 应：

读取 details 中的错误信息
根据错误修正 JSON schema（常见错误：type → kind，text → value，buttons → actions，缺少 schemaVersion）
重新调用 dialog 命令

何时建议录制

LLM 分析 rawEvents 的要求

stop 返回的 rawEvents 包含 DOM 事件和网络请求的原始数据。LLM 需要：

过滤噪音：去除无关点击（空白区域）、无意义滚动
合并输入：连续的 input 事件合并为单次填写操作；同一输入框的多次 change/input 事件只保留最终值
捕获操作意图（关键，影响 LLM 自愈能力）：
- 每步必须包含 intent 字段，格式：「[在什么上下文中] + 操作目标 + [期望产生的页面变化]」
- 示例（正确）：「在部署任务列表第一行，点击 Deploy 按钮，以打开部署配置对话框」
- 示例（不足）：「点击 Deploy」（缺少上下文和期望结果，LLM 无法用于自愈）
- description 字段保留简短描述，intent 字段承载完整语义
识别参数：将可变输入值替换为 {{paramName}}
关联 API：将 DOM 操作与触发的 API 请求关联
生成等待条件（waitAfter 字段，优先于固定时间等待）：
- 导航后：等待目标页面关键元素出现 { "type": "selector", "value": ".some-key-element" }
- 点击触发 modal：等待 modal 容器出现 { "type": "selector", "value": ".modal-container" }
- 提交后等待完成：等待加载状态消失 { "type": "selectorGone", "value": ".loading-spinner" }
- 页面跳转：等待 URL 变化 { "type": "url", "value": "/target-path" }
识别 UI 容器模式：
- 点击按钮 → 弹出 modal：后续步骤的 intent 和 locator 应说明「在弹出对话框中」
- 下拉菜单展开：选项的 intent 应说明「在展开的下拉菜单中」
- 表格行操作：intent 应包含行锚定信息，如「在显示 job-name-xxx 的那一行中」
事件去重：同一元素连续多次 click 合并为一次；导航后 500ms 内的误触点击丢弃
保留 locator 元数据：
- roleName：录制脚本自动提取的 accessible name（aria-label / label[for] / aria-labelledby），生成 workflow 时必须保留
- context：录制脚本自动检测的容器上下文（modal / dropdown / table-row / form），生成 workflow 时必须保留在 locators 中
- 这两个字段是 buildLocatorChain 作用域限定和精确匹配的关键输入

分析后生成的工作流 JSON 通过 save 命令保存。

录制数据说明

DOM 事件类型

网络请求

自动过滤静态资源（.js/.css/.png 等）和 tracking 请求。

参数化语法

工作流中的可变值使用 {{paramName}} 标记：

{
  "command": "fill",
  "args": { "text": "{{username}}" },
  "locators": { "css": "#username", "placeholder": "Username" }
}

重放时通过 params 注入：

node tool.js replay '{"id":"wf-xxx","params":{"username":"admin"}}'

导出为 Playwright 脚本时，参数通过环境变量注入：

USERNAME=admin PASSWORD=secret node deploy-staging.js

产物形态

Playwright 脚本特性：

可直接 node script.js 运行，不依赖 Cursor 或 Playwright Skill
与 replayer.js 一致的 locator 链（testId > ariaLabel > placeholder > text > role > id > css）
支持 context 作用域（modal/dropdown）
支持 waitAfter 条件
每步 try-catch + 失败截图
参数通过环境变量注入

数据存储

~/.cursor/skills/
├── web-automation-builder/           # Skill 代码
└── web-automation-builder-data/      # 数据目录
    ├── workflows/                    # 已保存的结构化工作流 JSON
    ├── recordings/                   # 录制数据（按日期归档）
    │   ├── 2026-02-23-wf-xxx.json   # 精简 summary（DOM事件+导航+API请求）
    │   └── ...
    ├── chrome-profile/                # Chrome 用户数据（认证缓存持久化）
    └── .recording.json               # 录制中的临时状态（stop 后删除）

触发词

录制浏览器操作、开始录制、帮我录制
重放工作流、再执行一次、用新参数执行
生成 Skill、做成 Skill、以后直接用
导出脚本、导出为 JS
查看录制、工作流列表

Adoption

shetengteng/web-automation-builder

$ install --global

Security Scan Results

SKILL.md

Web Automation Builder

安装 / 更新

前置依赖

CLI 命令

录制控制

工作流管理

重放

LLM-First 逐步重放（推荐）

录制期间辅助操作（Phase 4）

生成独立 Skill

导出 Playwright 脚本（单文件）

自主决策指南

录制流程（LLM 必须严格按此顺序执行）

agent-interact 强制交互规则

录制等待对话框（步骤 3）

分析报告对话框（步骤 6）

产物选择对话框（步骤 8）

custom dialog schema 强制约束

何时建议录制

LLM 分析 rawEvents 的要求

录制数据说明

DOM 事件类型

网络请求

参数化语法

产物形态

数据存储

触发词

Related Skills

shetengteng/web-content-reader

shetengteng/skills/uniapp-mp-generator

shetengteng/swagger-api-reader

shetengteng/socratic

shetengteng/web-automation-builder

$ install --global

Security Scan Results

SKILL.md

Web Automation Builder

安装 / 更新

前置依赖

CLI 命令

录制控制

工作流管理

重放

LLM-First 逐步重放（推荐）

录制期间辅助操作（Phase 4）

生成独立 Skill

导出 Playwright 脚本（单文件）

自主决策指南

录制流程（LLM 必须严格按此顺序执行）

agent-interact 强制交互规则

录制等待对话框（步骤 3）

分析报告对话框（步骤 6）

产物选择对话框（步骤 8）

custom dialog schema 强制约束

何时建议录制

LLM 分析 rawEvents 的要求

录制数据说明

DOM 事件类型

网络请求

参数化语法

产物形态

数据存储

触发词

Related Skills

shetengteng/web-content-reader

shetengteng/skills/uniapp-mp-generator

shetengteng/swagger-api-reader

shetengteng/socratic