创建多机训练任务
更新时间 2026-02-11 15:28:47
最近更新时间: 2026-02-11 15:28:47
本节介绍如何创建多机训练任务。
创建训练任务
1. 智算控制台页面选择“离线训练”,单击“创建AI应用”
2. 在创建详情页根据需要修改任务基本的信息,比如任务名、任务类型(Pytorch/Tensorflow/Minspore)、命名空间等配置
3. 选择多机训练任务
4. 选择框架,这里会根据选择的任务类型筛选出所有对应的框架镜像
说明
这里使用nvidia-pytorch-example框架,此框架内置了用于演示的Mnist训练数据集和代码。
5. 选择框架镜像版本,如下所示此演示镜像支持多架构
6. 选择队列,队列用于限制一组任务所使用的资源
说明
若没有队列则单击去创建,并设置各类资源配额。
7. 配置Master资源及启动参数等信息,如果需要使用RDMA加速训练则将RDMA资源通过自定义方式进行挂载
8. 配置Worker资源及启动参数等信息,如果需要使用RDMA加速训练则将RDMA资源通过自定义方式进行挂载
9. 启动参数及环境变量说明
启动命令如下:可调整对应训练轮次参数,GPU设置backend为nccl
python3 /opt/mnist/src/mnist.py --epochs=5 --backend=ncclPytorch任务环境变量设置
PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION:python设置完成后单击确认创建训练任务。
查看训练任务
1. 待训练任务状态变为“运行中”时进入训练任务详情页查看对应的日志和监控
2. 训练任务正常结束后状态会变为“成功”。