skills/triton-operator-dev/SKILL.md
昇腾 Triton 算子全流程开发编排。当用户需要从零开发 Triton 算子、进行端到端开发流程、或不确定该用哪个子 skill 时使用。自动编排:环境配置→需求设计→代码生成→静态检视→精度验证→性能评估→性能优化。关键词:全流程、开发编排、端到端、workflow orchestration。
npx skillsauth add Ascend/agent-skills triton-operator-devInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
构建 Triton 算子分 7 个阶段(含 1 个条件阶段):
| # | 阶段 | 产出 | Skill | 是否可跳过 |
|---|------|------|-------|-----------|
| 1 | 环境配置 | 环境验证报告 | triton-operator-env-config | 是:torch/torch_npu/triton 已可用 |
| 2 | 需求设计 | 设计文档 | triton-operator-design | 是:用户已提供完整设计文档 |
| 3 | 代码生成 | kernel + smoke test | triton-operator-code-gen | 否 |
| 4 | 静态检视 | 检视报告 | triton-operator-code-review | 否 |
| 5 | 精度验证 | 精度报告 | triton-operator-precision-eval | 否 |
| 6 | 性能评估 | 性能报告 + ratio | triton-operator-performance-eval | 否 |
| 7 | 性能优化 | 优化后代码 | triton-operator-performance-optim | 条件:ratio ≥ 目标则跳过 |
in_progress,完成后 completed| 用户意图 | 正确做法 |
|---------|---------|
| "开发一个算子"、"从零开发" | 本 skill 全流程 |
| "帮我写算子代码" | 不用本 skill,直接 triton-operator-code-gen |
| "优化算子性能" | 不用本 skill,直接 triton-operator-performance-optim |
| "检查算子精度" | 不用本 skill,直接 triton-operator-precision-eval |
跳过判断:
import torch, torch_npu, triton 且 torch.npu.is_available()docs/context/*.md)或直接给出算子 API 规格调用 Skill(triton-operator-code-gen)。此阶段只生成代码和 smoke test,不运行。
进入下一阶段前:kernel 代码 + 测试文件已写入磁盘
调用 Skill(triton-operator-code-review)。此阶段只静态分析,不运行。
进入下一阶段前:P0/P1 问题已修复
调用 Skill(triton-operator-precision-eval)。
此阶段必须在 NPU 上运行测试。 关键产出:
进入下一阶段前:所有精度测试通过
调用 Skill(triton-operator-performance-eval)。
此阶段必须在 NPU 上运行 benchmark。 关键产出:
触发条件:阶段 6 的 ratio < 用户要求的性能目标。
调用 Skill(triton-operator-performance-optim)。优化后必须重新运行精度验证确认无回归。
| 陷阱 | 症状 | 正确做法 | |------|------|---------| | 代码生成后停止 | 用户以为开发完成但无验证 | 强制执行阶段 5-6 | | 精度未通过就优化 | 优化了错误的代码 | 精度通过是优化的前提 | | 跳过 TaskCreate | 阶段遗漏无法追溯 | 每阶段创建 Task | | 混淆"生成测试"和"运行测试" | 只有测试文件但从未执行 | 阶段 5-6 必须实际运行 |
全流程完成后,必须在算子目录下输出以下文件:
| 文件 | 内容 | 必须 |
|------|------|------|
| {算子名}.py | Kernel 代码 + Host 接口 | 是 |
| test_{算子名}.py | Smoke test | 是 |
| precision_eval.py | 精度评估脚本 | 是 |
| precision_report.md | 精度报告 | 是 |
| performance_eval.py | 性能评估脚本 | 是 |
| performance_report.md | 性能报告 | 是 |
testing
Kubernetes 集群健康检查与安全修复 — 诊断问题,用户确认后执行修复
tools
昇腾NPU CANN Toolkit+Kernels+NNAL安装部署技能。支持从官网下载run包安装和从Docker镜像提取两种方式,覆盖驱动检查、包下载、安装、环境变量配置与验证全流程。当用户需要安装CANN全套组件或指定版本CANN到自定义路径时调用。
development
编译 ATB (Ascend Transformer Boost) 测试框架。当用户需要编译 ATB 测试框架、 运行 CSV 测试、或构建 atb_test_framework 时调用。支持全量编译(含第三方依赖克隆与源替换) 和增量编译两种模式。需在 Docker 容器内配合 CANN 环境执行。
databases
ATB OPS→ACLNN 迁移标准化工作流主模板。整合前置学习、设计文档生成、CSV用例设计、 实际迁移、编译验证、测试验证全流程,提供明确的阶段 Gates 和用户确认机制。