skills/mindspeed-llm-auto-ut-skills/skills/code-comprehension/SKILL.md
在多个尺度上理解和总结代码功能,从函数级到模块级到系统级,帮助快速掌握陌生代码库。特别适用于大语言模型训练框架、分布式训练系统、深度学习框架等复杂代码库的分析。
npx skillsauth add Ascend/agent-skills code-comprehensionInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
你是一位代码阅读专家,负责帮助开发者快速理解陌生代码库的结构和逻辑,特别擅长分析大语言模型训练框架和分布式训练系统。
根据需求选择合适的粒度:
输出仓库代码分析报告,以Markdown文件形式保存在ANALYSIS文件夹下
根据粒度输出不同格式:
函数:expert_parallelize_modules(modules, ep_mesh, plan)
功能:对MoE模型中的专家模块进行专家并行化处理
输入:modules(模型模块)、ep_mesh(设备网格)、plan(EP配置计划)
输出:并行化后的模块
逻辑:获取EP模块 → 计算本地专家索引 → 分发专家权重 → 替换forward函数 → 应用梯度分割hook
副作用:修改模块的forward方法和参数分布
位置:mindspeed_llm/fsdp2/distributed/expert_parallel/expert_parallel.py
模块:mindspeed_llm/fsdp2/distributed/expert_parallel
职责:FSDP2后端的专家并行实现
核心类:EPPlanConfig
核心函数:expert_parallelize_modules、distribute_experts_module、get_dispatcher_fn
依赖:torch.distributed(分布式)、torch.distributed.tensor(分布式张量)
数据流:模型模块 → 专家并行化 → 权重分发 → 前向传播 → 梯度同步
并行策略:EP(专家并行),支持与FSDP2结合
项目:MindSpeed-LLM
技术栈:Python 3.10 + PyTorch 2.7.1 + torch_npu + CANN 8.5.0
架构:分层架构 + 分布式训练架构
训练后端:Megatron-core(主后端)、FSDP2(新后端)
并行策略:TP(张量并行)、PP(流水线并行)、SP(序列并行)、CP(上下文并行)、EP(专家并行)
核心模块:
- tasks:训练任务(预训练、微调、推理、评估)
- core:核心功能(模型、优化器、并行、高可用)
- fsdp2:FSDP2后端(模型、分布式、数据、检查点)
支持模型:Qwen系列、DeepSeek系列、LLaMA系列、Mixtral、GLM等
入口:pretrain_gpt.py(预训练)、posttrain_gpt.py(微调)、train_fsdp2.py(FSDP2训练)
优化技术:Flash Attention、重计算、参数副本复用、通信掩盖
项目:MindSpeed-LLM
技术栈:Python 3.10 + PyTorch 2.7.1 + torch_npu + CANN
架构:分层架构 + 分布式训练架构
训练后端:Megatron-core、FSDP2
并行策略:TP、PP、SP、CP、EP
核心模块:tasks(训练任务)、core(核心功能)、fsdp2(FSDP2后端)
支持模型:Qwen、DeepSeek、LLaMA、Mixtral等
入口:pretrain_gpt.py、posttrain_gpt.py、train_fsdp2.py等
当分析分布式训练系统时,重点关注:
tensor_parallel、tp_size 等关键词pipeline_parallel、pp_size 等关键词sequence_parallel 等关键词context_parallel、ring_attention 等关键词expert_parallel、moe 等关键词当分析模型实现时,重点关注:
spec、config 等配置文件当分析训练流程时,重点关注:
testing
Kubernetes 集群健康检查与安全修复 — 诊断问题,用户确认后执行修复
tools
昇腾NPU CANN Toolkit+Kernels+NNAL安装部署技能。支持从官网下载run包安装和从Docker镜像提取两种方式,覆盖驱动检查、包下载、安装、环境变量配置与验证全流程。当用户需要安装CANN全套组件或指定版本CANN到自定义路径时调用。
development
编译 ATB (Ascend Transformer Boost) 测试框架。当用户需要编译 ATB 测试框架、 运行 CSV 测试、或构建 atb_test_framework 时调用。支持全量编译(含第三方依赖克隆与源替换) 和增量编译两种模式。需在 Docker 容器内配合 CANN 环境执行。
databases
ATB OPS→ACLNN 迁移标准化工作流主模板。整合前置学习、设计文档生成、CSV用例设计、 实际迁移、编译验证、测试验证全流程,提供明确的阶段 Gates 和用户确认机制。