
华为昇腾 NPU 上 PyTorch 模型的推理阶段 Python 层性能优化。通过替换为 torch_npu 融合算子提升推理速度。触发词:torch_npu 推理优化、NPU 推理性能、算子替换、model_files 优化。
昇腾(Ascend) NPU 上 Triton 算子深度性能优化技能(Skill),致力于实现用户要求的 Triton 算子性能提升。核心技术包括但不限于 Unified Buffer (UB) 容量规划、多 Tokens 并行处理、MTE/Vector 流水并行、mask(掩码)优化等。当用户提及以下内容时,务必触发此技能(Skill):昇腾(Ascend)NPU 上 Vector 类 Triton 算子性能优化。
根据模型名称识别其所属系列和开发供应商。当用户需要从模型名称判断模型属于什么系列(如GLM、Qwen3、DeepSeek、MiniCPM等)以及其开发商/供应商时使用此skill。
GPU代码到昇腾NPU适配审查专家。当用户需要将GPU上的代码(特别是深度学习、模型推理相关)迁移到华为昇腾NPU时,必须使用此skill进行全面审查。此skill能识别GPU到NPU迁移的堵点、编写适配脚本、生成验证方案,并输出完整的Markdown审查报告。触发场景包括:用户提到"NPU适配"、"昇腾迁移"、"GPU转NPU"、"Ascend"、"CANN"、"模型迁移"、"算子适配"等关键词,或者用户要求对GPU代码仓库进行审查并迁移到NPU平台。
昇腾模型适配验证 (Ascend Model Adaptation Verification) - 自动化验证华为昇腾设备上 vLLM-Ascend 模型部署、精度与性能的一站式工具。当用户提及在昇腾 NPU (Atlas 800 A2/A3) 上部署大语言模型、验证模型精度、运行性能基准测试、生成验证报告、或需要一键式模型适配验证时,使用此 Skill。它封装了完整验证流水线:环境检查、模型服务部署、精度测试、性能基准测试、资源清理与报告生成。适用于 Qwen3.5-27B、DeepSeek-V3 等 vLLM-Ascend 支持的模型。
Entry point for Ascend NPU inference toolchain. Use when running vLLM on Ascend/NPU, quantizing models with msmodelslim, or debugging NPU errors.
梳理模型适配框架检查的逻辑和原则。当用户需要了解适配框架检测的规则、关键词定义、训练/推理框架分类时使用此skill。
通用昇腾 NPU 模型迁移 Skill。适用于将基于 PyTorch / TensorFlow / vLLM 等框架的 CUDA 项目迁移到华为昇腾 NPU(Ascend910 系列)。涵盖环境检查、代码分析、自动迁移、 手动适配、分布式改造、CUDA 算子处理、第三方库替换、验证及 Skill 生成全流程。 当用户提到 昇腾迁移、NPU适配、昇腾适配、CUDA转NPU、模型移植到华为NPU 时触发。
从本机 Codex、Claude Code、OpenCode、Cursor 的历史记录中检索指定昇腾模型的适配、迁移、推理优化和性能验证记录,并基于已验证步骤生成或更新模型专属 skill。适用于用户要求“从历史里找某个 Ascend 模型的适配/优化记录”“把过去做过的昇腾迁移整理成 skill”“复用 Codex/Claude/Cursor/OpenCode 聊天记录形成可复现技能”时触发。
# Ascend Model Verifier ## Skill Metadata - **Skill Name**: Ascend Model Verifier - **Version**: 1.0.0 - **Category**: DevOps / AI Infrastructure - **Target Platform**: Huawei Ascend NPU - **Skill Path**: `./skills/Ascend_Model_Verifier` ## Skill Goal 自动、持续地发现、验证、归档开源大模型在昇腾NPU上的适配情况,构建一个可运行的昇腾模型生态知识库。 ## Core Design Principles 采用多Agent协作、解耦架构。每个Agent负责单一职责,通过文件系统(特定路径下的脚本、列表、结果文件夹)和状态(如文件存在与否)进行通信与协同。 ## Environment Requirements - **Hardware**: Ascend NPU (910B/C series) - **vLLM Version
梳理模型硬件适配检查的逻辑和原则。当用户需要了解硬件适配检测的规则、关键词定义、昇腾硬件型号分类时使用此skill。
从模型仓库链接读取 README 文档。当用户想要从模型仓库链接(如 https://ai.gitcode.com/Ascend-SACT/Qwen3.5-27B-A2-Vllm-Ascend)获取部署文档、使用说明或任何仓库内容时触发此 skill。使用此 skill 来获取仓库的 README、文档内容、部署命令等。