PyTorch 分布式训练任务 背景信息本文演示如何提交一个PyTorch的分布式训练任务,相关的数据已经包含在容器镜像中。若用户自有模型或训练任务可自行下载数据集,通过使用CSI hpfs文件存储,通过PVC方式挂载进容器中使用。操作步骤进入云容器引擎控制台。点击左侧【集群】进入集群列表。点击使用的集群名称,进入集群。点击左侧【工作负载】->【自定义资源】,选择资源浏览器,找到kubeflow.org/v1/PyTorchJob ,选择命名空间,点击新增。在创建yaml中,填入以下信息后点击【创建】。