skills/drivingsdk-ascend-model-migration/ssh-connection/long-task/SKILL.md
长耗时任务管理,支持checkpoint记忆、agent休息与恢复
npx skillsauth add Ascend/agent-skills ssh-dev-suite/long-taskInstall this skill globally with one command. Works with Claude Code, Cursor, and Windsurf.
3 of 9 scanners reported clean
Some scanners were skipped, did not run, or reported a non-clean status. Review each row below.
管理预计耗时>2分钟的远程任务,通过checkpoint机制支持agent休息和跨会话恢复。
使用connect/scripts/ssh-job.sh start启动任务,获取job_id后立即写入checkpoint:
bash connect/scripts/ssh-job.sh start <profile> "<command>"
# 输出: 任务已启动: job-20260306-143022-1234
bash long-task/scripts/checkpoint.sh write <profile> <job_id> \
--task "模型训练 epoch 50" \
--duration "~2h" \
--next "检查训练完成,下载模型权重,运行验证" \
--context "lr=0.001,batch=32"
产出: checkpoint文件 ~/.ssh-jobs/<job_id>/checkpoint.md
Agent输出:
✓ 任务已启动: job-20260306-143022-1234
✓ Checkpoint已保存,预计耗时 ~2h
你可以:
1. 稍后输入"检查任务 <job_id>"查看状态
2. 关闭会话,任务继续运行
3. 新会话中我会自动读取checkpoint恢复上下文
新会话或用户请求检查时:
bash long-task/scripts/checkpoint.sh read <profile> <job_id>
产出: 解析checkpoint内容(task, started, duration, next_steps, context)
根据预计耗时决定检查策略:
bash connect/scripts/ssh-job.sh status <profile> <job_id>
先查大小:
bash connect/scripts/ssh-job.sh status <profile> <job_id>
# 输出: stdout: 245KB, stderr: 1.2KB
按大小决策:
bash connect/scripts/ssh-job.sh output <profile> <job_id>bash connect/scripts/ssh-job.sh output <profile> <job_id> --tail 50bash connect/scripts/ssh-job.sh output <profile> <job_id> --grep 'error|fail|exception'任务完成后,按checkpoint中的next_steps继续: 逐步执行,每步完成后更新checkpoint或删除。
存储在 ~/.ssh-jobs/<job_id>/checkpoint.md:
job_id: job-20260306-143022-1234
profile: dev-server
task: "模型训练 epoch 50"
started: 2026-03-06T14:30:22
expected_duration: ~2h
next_steps:
- 检查训练完成状态
- 下载模型权重到本地
- 运行验证脚本
context: "learning_rate=0.001, batch_size=32"
testing
Kubernetes 集群健康检查与安全修复 — 诊断问题,用户确认后执行修复
tools
昇腾NPU CANN Toolkit+Kernels+NNAL安装部署技能。支持从官网下载run包安装和从Docker镜像提取两种方式,覆盖驱动检查、包下载、安装、环境变量配置与验证全流程。当用户需要安装CANN全套组件或指定版本CANN到自定义路径时调用。
development
编译 ATB (Ascend Transformer Boost) 测试框架。当用户需要编译 ATB 测试框架、 运行 CSV 测试、或构建 atb_test_framework 时调用。支持全量编译(含第三方依赖克隆与源替换) 和增量编译两种模式。需在 Docker 容器内配合 CANN 环境执行。
databases
ATB OPS→ACLNN 迁移标准化工作流主模板。整合前置学习、设计文档生成、CSV用例设计、 实际迁移、编译验证、测试验证全流程,提供明确的阶段 Gates 和用户确认机制。