Just-it

11 verified skills226 total stars

latency-optimizer

擅长在 Ascend NPU 平台上编写高效 Triton 算子的性能优化专家。按照严格的顺序逐步优化 Triton 代码，每次只尝试一个优化点，确保优化前后功能一致、精度一致。 ⚠️ 只能使用本 skill 规定的优化方式，禁止使用任何超出本 skill 之外的优化方式。

tools25

kernel-splitter

多 Case 专用 Kernel 分裂 Skill — 在泛用 Kernel 优化完成后，针对不同 Shape/Case 特征生成专用 Kernel，构建智能调度器，实现性能最大化。失败自动回退到泛用 Kernel。

tools25

kernel-verifier

算子代码验证 Skill — 按照标准验证流程验证生成的内核代码。创建验证项目文件，调用 scripts/verify.py 运行验证，验证通过后调用 scripts/benchmark.py 进行性能测试并收集结果。

testing25

kernel-generator

Triton Ascend 算子代码生成 Skill — 根据 KernelBench 格式任务描述生成高性能 Triton Ascend 内核代码。支持首次生成和基于错误反馈的迭代优化。

tools22

ascendc-translator

AscendC kernel 转译与实现专家 Skill。将 TileLang 设计转译为 AscendC kernel，并生成 model_new_ascendc.py 调用 AscendC kernel。

data-ai19

op-task-extractor

从用户 PyTorch/Python 代码中提取算子实现，构建为 KernelBench 格式的标准化任务文件。支持两种模式：单 case（单一自包含 .py，get_inputs 返回单组）和多 case（.py + 同名 .json 配对，get_input_groups 返回多组）。

development19

trace-recorder

执行 trace 记录员 Skill。在算子任务完成后，回顾整个执行过程，生成结构化的 trace 记录供 meta-agent 优化使用。

data-ai19

performance-analyzer

性能分析专家 Skill。对已通过正确性验证的算子实现进行性能测试，对比参考实现以及可用优化实现（通常为 AscendC）的性能表现。

tools19

case-simplifier

测试用例精简专家 Skill。读取 `{output_dir}` 中与算子对应的 `.json` 文件，对其中的输入 cases（JSON Lines 格式，每行一个 `{"inputs": [...]}` 对象）进行精简，使 case 数量尽量不超过 10 个，同时保证覆盖度。

tools19

tilelang-designer

TileLang kernel 设计与实现专家 Skill。为 PyTorch Model 设计并实现自定义 TileLang kernel：完成 block-level 设计、tile-level 设计，并生成 model_new_tilelang.py 调用自定义 TileLang kernel。

data-ai19

kernel-designer

Triton Ascend 算子算法草图设计 Skill — 根据任务描述设计高质量的算法草图（sketch），用于指导后续代码生成。支持首次设计和基于历史上下文的迭代优化。

content-media15

Just-it

latency-optimizer

kernel-splitter

kernel-verifier

kernel-generator

ascendc-translator

op-task-extractor

trace-recorder

performance-analyzer

case-simplifier

tilelang-designer

kernel-designer

Adoption

Just-it

latency-optimizer

kernel-splitter

kernel-verifier

kernel-generator

ascendc-translator

op-task-extractor

trace-recorder

performance-analyzer

case-simplifier

tilelang-designer

kernel-designer