PyTorch GPU单机训练
更新时间 2026-05-12 20:17:14
最近更新时间: 2026-05-12 20:17:14
本节介绍如何创建单机训练任务。
创建训练任务
1. 在集群列表页,选择指定集群
2. 在左侧导航栏,选择“智算套件/AI应用列表”
3. 智算控制台页面选择“离线训练”,单击“创建AI应用”
2. 根据需要修改任务基本信息,比如任务名,任务类型、命名空间等
3. 配置训练任务,选择单机任务
4. 选择框架,这里选择nvidia-pytorch-example框架,此框架内置了MNIST训练数据集
5. 选择框架版本,此框架支持多架构
6. 选择队列,若没有则单击去创建队列,设置各类资源配额
7. 选择队列,设置任务资源,以及环境变量和启动命令等
启动命令如下:可调整对应训练轮次参数,若使用 GPU, backend 建议设置为 nccl
python3 /opt/mnist/src/mnist.py --epochs=5 --backend=ncclPyTorch任务环境变量必须设置
PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION:python单击确认创建任务。
查看训练任务
1. 查看任务列表,此时状态已转变为运行中
2. 单击训练任务,查看训练任务事件、日志输出以及监控
3. 最终任务完成状态变为成功