训练任务 平台的训练任务可以提供稳定和易用的训练环境,在降低训练成本的同时提升训练任务执行效率。 前置条件 完成训练数据集准备,完成存储配置准备(ZOS/HPFS),详见我的数据集。 如果预置模型不满足开发要求,需要基于自有模型,需要完成模型文件准备,详见我的模型。 如果预置镜像不满足开发要求,需要基于自有镜像,需要完成镜像文件准备,详见我的镜像。 如果需要使用代码包,需要完成代码包的上传,详见我的代码包。 创建训练任务 登录智算服务平台。 创建训练任务入口: 入口一:在左侧菜单选择“模型定制”“训练任务”,点击“新建任务”,进入任务创建页面。 入口二:在左侧菜单选择“模型定制”“开发机”,点击开发机列表的“开始训练”。 参数类型 参数名 说明 基本信息 任务名称 必填,训练任务名称。 基本信息 描述 非必填,输入128个字符的描述。 数据集配置 训练数据集 最多可添加10个,选择基础数据集或者标注数据集。 模型配置 模型来源 我的模型:最多5个,将模型管理中的模型文件挂载到容器内路径。 预置模型:最多5个,将预置模型挂载到容器内路径。 模型配置 模型文件 选择我的模型具体的模型文件及版本。 选择预置模型文件及具体版本。 存储配置 ZOS对象存储 最多选择5个,如果没有提前创建,可以点击“去创建对象存储”完成创建。 存储配置 HPFS并行文件系统 最多选择5个,如果没有提前创建,可以点击“去创建HPFS”完成创建。 环境配置 文件目录 平台可持久化的挂载目录,后续可以在该目录下读写文件,是用户间隔离的。 环境配置 训练代码 非必填,可以选择目标代码包。 环境配置 启动命令 必填。如果您的代码包是文件夹,则需要填写python xx.py,其中xx.py是您的训练代码;如果您的代码中有启动参数,可以直接填写;若您使用的代码包是压缩包文件,需要在启动命令中添加解压命令zip。 资源配置 镜像来源 支持选择系统预置镜像、自定义镜像、共享容器镜像和他人分享镜像。 资源配置 集群 支持公共集群和专属集群两种类型,其中专属集群需要提前购买。 资源配置 队列 选择目标队列,展示当前总资源及使用情况。 资源配置 资源规格 选择当前任务所需要的资源规格。 资源配置 训练模式 默认为DDP(分布式训练),如果在单一计算设备上进行机器学习模型训练选择单机训练。 资源配置 容错训练 启动容错训练后,如果训练过程中节点异常,系统会自动重新启用一个新的节点来替换异常节点,从上一个checkpoint开始继续训练。 高级配置 断点续训 开启容错后,如因为节点故障导致训练任务异常,会封锁故障节点,重新调度训练任务。 高级配置 算力健康检查 检查昇腾机器节点的显卡状态、显卡通信状态和交换机状态,以及带宽的压测值。可训练任务详情页查看具体信息。