skills/triton-operator-design/SKILL.md
生成适用于 Ascend NPU 的 Triton 算子需求文档。当用户需要设计新的 Triton 算子、编写算子需求文档、进行算子性能优化设计时使用。核心产出:功能定义、API 接口、Tiling 策略、Kernel 实现方案。
npx skillsauth add Ascend/agent-skills triton-operator-designInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
| 阶段 | 必须加载 | 不要加载 |
|------|----------|----------|
| 需求分析 | ascend-terminology.md | template, tiling-strategies |
| 原型设计 | triton-api-reference.md | tiling-strategies |
| 特性实现 | tiling-strategies.md, triton-operator-template.md | ascend-terminology |
MANDATORY:阶段 4 前,完整阅读 tiling-strategies.md 和 triton-operator-template.md,不设行数限制。按模板格式输出文档。
| 陷阱 | 症状 | 解决 | |------|------|------| | UB 超限 | 方案不可实现 | 计算缓冲区总大小 < 192KB | | 内存未对齐 | 硬件报错 | UB 缓冲区 32B 对齐,单值缓冲区分配 32B | | 精度损失 | FP16 结果不准 | 归约前升 FP32,完成后降精度 | | Tiling 不合理 | 性能差/大 shape 不支持 | 按维度切分,避免跨 Core 数据依赖 |
testing
Kubernetes 集群健康检查与安全修复 — 诊断问题,用户确认后执行修复
tools
昇腾NPU CANN Toolkit+Kernels+NNAL安装部署技能。支持从官网下载run包安装和从Docker镜像提取两种方式,覆盖驱动检查、包下载、安装、环境变量配置与验证全流程。当用户需要安装CANN全套组件或指定版本CANN到自定义路径时调用。
development
编译 ATB (Ascend Transformer Boost) 测试框架。当用户需要编译 ATB 测试框架、 运行 CSV 测试、或构建 atb_test_framework 时调用。支持全量编译(含第三方依赖克隆与源替换) 和增量编译两种模式。需在 Docker 容器内配合 CANN 环境执行。
databases
ATB OPS→ACLNN 迁移标准化工作流主模板。整合前置学习、设计文档生成、CSV用例设计、 实际迁移、编译验证、测试验证全流程,提供明确的阶段 Gates 和用户确认机制。