创建单机训练任务
更新时间 2026-02-11 15:28:42
最近更新时间: 2026-02-11 15:28:42
本节介绍如何创建单机训练任务。
创建训练任务
1. 智算控制台页面选择“离线训练”,单击“创建AI应用”
2. 根据需要修改任务基本信息,比如任务名,任务类型、命名空间等
3. 配置训练任务,选择单机任务
4. 选择框架,这里选择nvidia-pytorch-example框架,此框架内置了Mnist训练数据集
5. 选择框架版本,此框架支持多架构
6. 选择队列,若没有则单击去创建队列,设置各类资源配额
7. 选择队列,设置任务资源,以及环境变量和启动命令等
启动命令如下:可调整对应训练轮次参数,GPU设置backend为nccl
python3 /opt/mnist/src/mnist.py --epochs=5 --backend=ncclPytorch任务环境变量必须设置
PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION:python单击确认创建任务。
查看训练任务
1. 查看任务列表,此时状态已转变为运行中
2. 单击训练任务,查看训练任务事件、日志输出以及监控
3. 最终任务完成状态变为成功