创建单机训练任务
更新时间 2025-11-03 18:59:22
最近更新时间: 2025-11-03 18:59:22
本节介绍创建单机训练任务。
创建任务
在智算控制台页面选择“离线训练”,单击“创建AI应用”。
基本信息
设置任务基本信息,比如任务名,任务类型、命名空间等。
配置信息
配置训练任务,选择单机任务。
选择框架和版本
这里会根据选择的任务类型筛选出所有对应的框架镜像。
说明
选择nvidia-pytorch-example框架,此框架内置了Mnist训练数据集。
选择框架版本,此框架支持多架构。
选择队列
说明
若没有则单击“创建队列”,设置各类资源配额。
选择队列,设置任务资源,以及环境变量和启动命令等。
启动参数
启动命令如下:可调整对应训练轮次参数,GPU设置backend为nccl。
python3 /opt/mnist/src/mnist.py --epochs=5 --backend=ncclPytorch任务环境变量必须设置。
PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION:python单击“确认”,完成任务创建。
查看任务
训练列表
打开任务列表,此时状态已转变为“运行中”。
训练详情
单击训练任务,查看训练任务事件、日志输出以及监控。
训练日志
训练监控
训练结束
最终任务完成状态变为“成功”。