skills/drivingsdk-ascend-model-migration/ssh-connection/debug/SKILL.md
结构化远程服务器问题排查流程,支持上下文感知的环境检查和容器内调试
npx skillsauth add Ascend/agent-skills ssh-dev-suite/debugInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
引导agent按结构化流程排查远程服务器问题,避免盲目执行命令。所有远程命令通过connect/scripts/ssh-exec.sh执行。
uptime, df -h, free -m, top -bn1 | head -20journalctl -u <service> --since "1h ago", /var/log/grep -i "error\|fatal\|exception" <log> | tail -50docker logs <container> --tail 200Token优化策略:
日志分析:先用grep搜索错误关键词,找到问题再扩展上下文
大日志文件:只读tail -50,不读全文
环境检查:输出摘要,不粘贴完整命令结果
产出:错误信息摘要
| 检测到的依赖 | 额外检查命令 |
|---|---|
| PyTorch / TensorFlow | nvidia-smi, GPU显存占用 |
| 华为 CANN / MindSpore | npu-smi info, NPU状态 |
| Docker / docker-compose | docker ps -a, docker stats --no-stream |
| 数据库连接配置 | 连通性测试、活跃连接数 |
| 场景 | 命令 |
|---|---|
| 进程 | ps aux \| grep <app>, systemctl status <svc> |
| 资源 | df -h, free -m, top -bn1 \| head -20 |
| 日志 | tail -100 <log>, journalctl -u <svc> --since "1h ago" |
| 网络 | ss -tlnp, curl -sv localhost:<port> |
| 容器 | docker logs <c> --tail 100, docker stats --no-stream |
| GPU | nvidia-smi, npu-smi info |
profile配置container字段时,ssh-exec.sh自动路由命令到容器内。注意:
cat, ls, env)testing
Kubernetes 集群健康检查与安全修复 — 诊断问题,用户确认后执行修复
tools
昇腾NPU CANN Toolkit+Kernels+NNAL安装部署技能。支持从官网下载run包安装和从Docker镜像提取两种方式,覆盖驱动检查、包下载、安装、环境变量配置与验证全流程。当用户需要安装CANN全套组件或指定版本CANN到自定义路径时调用。
development
编译 ATB (Ascend Transformer Boost) 测试框架。当用户需要编译 ATB 测试框架、 运行 CSV 测试、或构建 atb_test_framework 时调用。支持全量编译(含第三方依赖克隆与源替换) 和增量编译两种模式。需在 Docker 容器内配合 CANN 环境执行。
databases
ATB OPS→ACLNN 迁移标准化工作流主模板。整合前置学习、设计文档生成、CSV用例设计、 实际迁移、编译验证、测试验证全流程,提供明确的阶段 Gates 和用户确认机制。