创建多机训练任务
 
                  更新时间 2025-11-03 18:59:24
                 
 
                    最近更新时间: 2025-11-03 18:59:24
                  
 本节介绍创建多机训练任务。
 创建任务
在智算控制台页面选择“离线训练”,单击“创建AI应用”。
基本信息
在创建详情页根据需要修改任务基本的信息,比如任务名、任务类型(Pytorch/Tensorflow/Minspore)、命名空间等配置。
配置信息
选择多机训练任务。
选择框架
这里会根据选择的任务类型筛选出所有对应的框架镜像。
说明
这里使用nvidia-pytorch-example框架,此框架内置了用于演示的Mnist训练数据集和代码。
选择框架镜像版本,如下所示此演示镜像支持多架构。
选择队列
队列用于限制一组任务所使用的资源。
说明
若没有队列则单击去创建,并设置各类资源配额。
配置Master
配置Master资源及启动参数等信息,如果需要使用RDMA加速训练则将RDMA资源通过自定义方式进行挂载。
配置Worker
配置Worker资源及启动参数等信息,如果需要使用RDMA加速训练则将RDMA资源通过自定义方式进行挂载
启动参数
启动命令如下:可调整对应训练轮次参数,GPU设置backend为nccl。
python3 /opt/mnist/src/mnist.py --epochs=5 --backend=ncclPytorch任务环境变量设置。
PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION:python设置完成后,单击“确认”创建训练任务。
查看任务
训练日志
待训练任务状态变为“运行中”时,进入训练任务详情页查看对应的日志和监控。
训练监控
训练结束
训练任务结束后,任务状态会变为“成功”。