skills/catlass-operator-performance-optim/SKILL.md
指导 Catlass 算子性能调优。流程:阅读 catlass 优化指南、获取/更新 profiler 基线、按指南修改 tiling、重新编译、**强制产出并展示性能对比报告**、迭代对比。调优策略以 catlass 文档为准。条件不明则追问。
npx skillsauth add Ascend/agent-skills catlass-operator-performance-optimInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
阅读优化指南 → 获取基准数据 → 修改 Tiling 配置 → 重新编译运行 → profiler 双路径采集
→ 输出性能对比报告(落盘 + 聊天展示)→ 对比迭代 → 确定最佳配置
| 检查项 | 说明 |
|--------|------|
| 工程目录 | 存在 OPS_PROJECT_ROOT,且其下已有 catlass/docs/1_Practice/10_matmul_optimization.md |
| 算子状态 | 算子已可编译、可运行 |
| 性能数据 | 基线优先为 csrc/ops/<op>/test/ 下按 ascendc-operator-performance-eval 规范采集的 <op>_torch_npu_profiler_report.md(或本工程 benchmark_*_torch_npu_profiler.py 生成的等价 Markdown)。ascendc-operator-precision-eval 仅精度,不作性能基线 |
条件不明时追问用户。
NEVER:未读 catlass 优化指南就随意改 tiling 参数;一次修改多个变量;忽略硬件资源限制;修改代码后不重新编译;在 NPU 与 profiler 可用时,仅改代码却不产出对比报告
ALWAYS:先阅读 catlass 优化指南再动手;每次迭代记录配置与性能数据;性能下降时回滚配置;修改代码后使用 ascendc-operator-compile-debug 重新编译;每次有意义的性能优化完成后,按 §6 产出并展示性能对比报告(落盘 + 聊天界面)
在 OPS_PROJECT_ROOT 下读取:<OPS_PROJECT_ROOT>/catlass/docs/1_Practice/10_matmul_optimization.md
理解可调参数:TileShape、DispatchPolicy、Swizzle 等。请一定要阅读文档,按照其中的建议进行优化尝试,而并非随意修改参数。
迭代基线取自 ascendc-operator-performance-eval(或算子目录内等价的 torch_npu.profiler 脚本)产出的报告对比表中的 各 case 耗时与 native/custom 比值。调优前在同一 csrc/ops/<op>/test/ 目录完成采集并得到首版报告,作为「优化前」参照。
根据优化指南中的建议,修改算子的 tiling shape 配置:
| 修改项 | 说明 | |--------|------| | TileShape 大小 | 调整 L1/L0 层 TileShape | | DispatchPolicy | 选取其他的调度策略 | | Swizzle 策略 | 尝试修改数据搬运 Swizzle |
修改代码后须重新编译(使用 ascendc-operator-compile-debug),再运行算子采集性能数据,与基准对比:
在合理的迭代次数内,找到性能最优的 tiling 配置。记录最佳配置的详细参数和对应的性能指标。
每次完成一轮可提交的性能优化(或向用户交付调优结论)时,在 NPU 与 torch_npu.profiler 可用 的前提下 MUST 执行:
| 序号 | 要求 |
|------|------|
| 6.1 | 按 ascendc-operator-performance-eval 约定:warmup=5、active=5,自定义算子 vs 标杆双路径均在 NPU 上采集;标杆可为 torch.matmul / torch_npu 等价 API 或小算子拼接(与 eval skill 一致)。 |
| 6.2 | 在 csrc/ops/<op_name>/test/ 落盘 Markdown 性能对比报告(文件名与工程脚本一致即可,例如 <op>_torch_npu_profiler_report.md)。报告须含 Case / Shape / 自定义 per-step / 标杆 per-step / 比值 等对比表,并注明用例 JSONL、trace 根目录、schedule。 |
| 6.3 | 在当前对话中展示:至少贴出 对比表主体或目标 shape 对应行、报告与 JSONL 的完整路径,并用 1~3 句说明结论(例如:何者更快、关键 case 的 native/custom 比值、是否达到预期)。不得仅写「已优化」而不附数据。 |
| 6.4 | 若环境不可用(无 NPU、profiler 失败):诚实说明原因,列出已改动的配置与建议用户本地执行的采集命令,不伪造报告。 |
当本轮任务包含 「相对优化前的性能变化」 结论(而非仅与 torch.matmul 标杆对比)时,MUST 额外满足:
| 序号 | 要求 |
|------|------|
| 6.5.1 | 改 Kernel/tiling 之前:在同一 CANN / 驱动 / 时钟条件下,用当前二进制跑一次完整 torch_npu.profiler(与 §6.1 同约定),落盘 优化前报告,建议命名 <op>_torch_npu_profiler_report_PRE.md(或 *_baseline.md),并保留对应 trace 目录备查。 |
| 6.5.2 | 改代码并重新编译安装后:再跑一轮 profiler,落盘 优化后报告,建议命名 <op>_torch_npu_profiler_report_POST.md。 |
| 6.5.3 | 合并交付:生成 优化前 vs 优化后 对照表,至少含 Case / Shape / 工程 custom per-step(前)/(后)/ 工程 Δ%;标杆列可取自优化后报告。允许使用算子 test/ 下合并脚本(如 merge_profiler_before_after.py)或等价表格。 |
| 6.5.4 | 在当前对话中展示该对照表(至少覆盖用户点名的 shape),并如实说明部分 case 回退(Δ%>0)的情况;禁止只挑选变快的 case 而隐瞒回退。 |
注意:与标杆
torch.matmul的双路径报告(§6.2)并存:前者回答「离框架差多少」,§6.5 回答「这次改 Kernel 比改之前好多少」。
说明:本步与 catlass-operator-dev Phase 6「聊天中展示性能摘要」对齐;本 skill 强调 调优迭代后同样必须交付可复核的 Markdown + 对话摘要。
test/ 更新 TILING_EXPLORATION_*.md 与 TILING_SEARCH.md 摘要,且未遗留探测用极简 kernel| 文档 | 用途 |
|------|------|
| <ASCEND_KERNEL_ROOT>/catlass/docs/1_Practice/10_matmul_optimization.md | 调优策略以此为准 |
| ascendc-operator-performance-eval | 性能基线与 profiler 对比流程、JSONL 规范 |
| ascendc-operator-compile-debug | 修改代码后重新编译、安装 whl |
在尚未达到目标性能时,应在 csrc/ops/<op>/test/ 维护 TILING_SEARCH.md(或等价文档):按 10_matmul_optimization.md 列出 已验证无效/回退 的配置与 待试 项(Swizzle offset、Preload、Split-K、TLA 等),每项 PRE/POST 对照后再勾选;避免重复踩坑。
当用户只关心少数大 shape(例如单一 M×N×K)并希望在相对 Catlass example / 文档默认 tiling 下寻找更优 L1/L0/Swizzle 组合时:
| 要求 | 说明 |
|------|------|
| 探测笔记 | 在 csrc/ops/<op>/test/ 新增或维护 TILING_EXPLORATION_<brief>.md(例如 TILING_EXPLORATION_1280x16384x4096.md),并在 TILING_SEARCH.md 的「已验证结论」中 一行摘要 + 链接,避免与全形状调参混写成一团。 |
| 表格字段 | 建议列:日期、标签、L1(M,N,K)、L0(若与默认不同)、Swizzle、工程 custom per-step (μs)、标杆 (μs)、相对默认 Δ% 或结论(最优 / 回退 / 待复测)。每新增一次探测 追加一行,勿覆盖历史。 |
| 隔离探测(整文件替换 kernel) | 为只跑一种 tile,可 临时将 op_kernel 改为「全问题单实例化」的极简 kernel;同一轮任务结束前必须恢复带 形状分派的生产版,并再编译安装;禁止把探测用极简 kernel 当作最终交付。 |
| 与 §6 的关系 | 正式采纳某配置前,仍应对 完整 JSONL 或用户指定 case 集跑 PRE/POST(§6.5)并落盘报告;单 shape 表仅记录 检索过程,不替代全量回归。 |
testing
Kubernetes 集群健康检查与安全修复 — 诊断问题,用户确认后执行修复
tools
昇腾NPU CANN Toolkit+Kernels+NNAL安装部署技能。支持从官网下载run包安装和从Docker镜像提取两种方式,覆盖驱动检查、包下载、安装、环境变量配置与验证全流程。当用户需要安装CANN全套组件或指定版本CANN到自定义路径时调用。
development
编译 ATB (Ascend Transformer Boost) 测试框架。当用户需要编译 ATB 测试框架、 运行 CSV 测试、或构建 atb_test_framework 时调用。支持全量编译(含第三方依赖克隆与源替换) 和增量编译两种模式。需在 Docker 容器内配合 CANN 环境执行。
databases
ATB OPS→ACLNN 迁移标准化工作流主模板。整合前置学习、设计文档生成、CSV用例设计、 实际迁移、编译验证、测试验证全流程,提供明确的阶段 Gates 和用户确认机制。