skills/triton-operator-code-review/SKILL.md
静态检视 Triton 算子代码质量(Host+Device 侧),面向 Ascend NPU。发现潜在 bug、API 误用和性能隐患。仅关注静态代码分析。关键词:code review、代码检视、静态分析。
npx skillsauth add Ascend/agent-skills triton-operator-code-reviewInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
| 级别 | 含义 | 典型问题 | |------|------|---------| | P0 | 必定崩溃或错误结果 | Mask 遗漏、核类型错配、Atomic 循环死锁 | | P1 | 高概率精度/功能问题 | 归约未升精度、Softmax 未减 max | | P2 | 性能/可维护性 | 冗余访存、BLOCK 未对齐 |
| 阶段 | 加载 | 不要加载 |
|------|------|---------|
| Phase 1: Host 侧 | ascend-triton-api-constraints.md | dtype-matrix |
| Phase 2: Device 侧 | ascend-api-dtype-matrix.md | test-patterns |
| 逐项核对 | code-review-checklist.md | — |
| 参考官方实现 | ascend-test-patterns.md | — |
| 确认 API 签名/参数 | triton-api-reference.md | — |
加载触发:需要确认某个 tl/libdevice API 的签名、参数或可用数据类型时,完整阅读 triton-api-reference.md。
| 检查项 | 识别方式 | 级别 |
|--------|---------|------|
| 硬编码核数 | grid = (20,) 等字面量 | P0 |
| 核类型错配 | 含 tl.dot 的 kernel 用了 num_vectorcore | P0 |
| 矩阵乘法退化为逐元素 | 无 tl.dot,用 Vector Core 逐元素乘加实现 matmul/GEMV | P0 |
| BLOCK_SIZE 非 tl.constexpr | 声明检查 | P1 |
| 矩阵运算 BLOCK 非 16 倍数 | 数值检查 | P2 |
核类型:含 tl.dot → AI Core (num_aicore);逐元素/归约/激活 → Vector Core (num_vectorcore)。注意:矩阵乘法类算子(含 GEMV)必须用 tl.dot + AI Core,Cube Core 吞吐远高于 Vector Core。
Mask 完整性(P0):所有 tl.load/tl.store 必须有 mask= 或使用 make_block_ptr。
数据类型(P0-P1):tl.dot 输入仅支持 int8/fp16/fp32/bf16;dot_scaled 有条件支持(bf16/fp16 lhs/rhs, int8 scale, fp32 out);permute/trans 不支持 int64。
精度处理(P1):FP16/BF16 归约前 .to(tl.float32);Softmax 必须减 max。
归约类算子单 pass 检查(P1):GroupNorm/LayerNorm/RMSNorm 等算子,检查是否对同一数据多次 load(先算统计量,再 load 做归一化)。当 D ≤ UB 时应单 pass:一次 load 后 tl.sum(x, 1) 在 UB 内完成全部计算。双 pass 可慢 5x。
控制流(P0):Triton IR 使用 MLIR 结构化控制流(scf.for/scf.while),不支持 early exit。
for/while 循环内 return — 编译错误:"Cannot have return statements inside while or for"(包括子函数中的 return)for 循环内 break — 编译错误:"unsupported AST node type: Break"Tensor 索引(P0):Triton tensor 不支持 Python 风格 [] 下标操作。
tensor[i] = val — AssertionErrorval = tensor[i] — AssertionErrortensor[i:j] 切片 — 编译错误代码模式:
for ... : tl.atomic_cas/or/xor/and/xchg(...) — 可能死锁(P0)tl.atomic_add 返回值(P0)import numpy(P0)tensor[i].item() 在 Host 热路径 — 触发 CPU-NPU 同步(P2)for ... : tl.load(x_ptr + ...) 循环 — 双 pass 反模式(P1)tl.parallel(bind_sub_block=True) — tl.dot 后有逐元素操作但无并行分片(P2)tl.cast 到 int8/int16 未指定 overflow_mode(P1)tl.load → 冗余 GM 访问tl.arange(0, N) * stride(stride > 1)→ 非连续访存pid 直接映射 block 无循环 → 负载不均b * stride0 + n * stride1 + ...)→ 建议改为 host 侧 expand+contiguous,统一 row * D + col 偏移weight_ptr + ch_idx gather → 建议 host 侧展开为连续布局num_vectorcore / BLOCK_SIZE 非 tl.constexprtl.dot + AI Coretl.load/tl.store 无 mask / tl.dot 输入 int32/int16/int64 / dot_scaledatomic_or/xor/and/xchg/cas 在 for 循环内 / kernel 内第三方库overflow_modefor/while 循环内 return / break — Triton 结构化控制流不支持 early exit(含子函数中的 return)tensor[i] 索引操作(读取/赋值/切片)— 用 tl.where / tl.gather / tl.extract_slice 替代按 code-review-report-template.md 格式输出报告。
testing
Kubernetes 集群健康检查与安全修复 — 诊断问题,用户确认后执行修复
tools
昇腾NPU CANN Toolkit+Kernels+NNAL安装部署技能。支持从官网下载run包安装和从Docker镜像提取两种方式,覆盖驱动检查、包下载、安装、环境变量配置与验证全流程。当用户需要安装CANN全套组件或指定版本CANN到自定义路径时调用。
development
编译 ATB (Ascend Transformer Boost) 测试框架。当用户需要编译 ATB 测试框架、 运行 CSV 测试、或构建 atb_test_framework 时调用。支持全量编译(含第三方依赖克隆与源替换) 和增量编译两种模式。需在 Docker 容器内配合 CANN 环境执行。
databases
ATB OPS→ACLNN 迁移标准化工作流主模板。整合前置学习、设计文档生成、CSV用例设计、 实际迁移、编译验证、测试验证全流程,提供明确的阶段 Gates 和用户确认机制。