前置条件
完成训练数据集准备,完成存储配置准备(ZOS/HPFS),详见我的数据集。
如果预置模型不满足开发要求,需要基于自有模型,需要完成模型文件准备,详见我的模型。
如果预置镜像不满足开发要求,需要基于自有镜像,需要完成镜像文件准备,详见我的镜像。
如果需要使用代码包,需要完成代码包准备,详见我的代码包。
创建训练任务
登录智算服务平台。
创建训练任务入口:
入口一:在左侧菜单选择“模型定制”-“训练任务”,点击“新建任务”,进入任务创建页面。
入口二:在左侧菜单选择“模型定制”-“开发机”,点击开发机列表的“开始训练”。
参数类型 | 参数名 | 说明 |
基本信息 | 任务名称 | 必填,训练任务名称。 |
描述 | 非必填,输入128个字符的描述。 | |
数据集配置 | 训练数据集 | 最多可添加10个,选择基础数据集或者标注数据集。 |
模型配置 | 模型来源 | 我的模型:最多5个,将模型管理中的模型文件挂载到容器内路径。 预置模型:最多5个,将预置模型挂载到容器内路径。 |
模型文件 | 选择我的模型具体的模型文件及版本。 选择预置模型文件及具体版本。 | |
存储配置 | ZOS对象存储 | 最多选择5个,如果没有提前创建,可以点击“去创建对象存储”完成创建。 |
HPFS并行文件系统 | 最多选择5个,如果没有提前创建,可以点击“去创建HPFS”完成创建。 | |
环境配置 | 文件目录 | 平台可持久化的挂载目录,后续可以在该目录下读写文件,是用户间隔离的。 |
训练代码 | 非必填,可以选择目标代码包。 | |
启动命令 | 必填。如果您的代码包是文件夹,则需要填写python xx.py,其中xx.py是您的训练代码;如果您的代码中有启动参数,可以直接填写;若您使用的代码包是压缩包文件,需要在启动命令中添加解压命令zip。 | |
资源配置 | 镜像来源 | 支持选择系统预置镜像、自定义镜像、共享容器镜像和他人分享镜像。 |
集群 | 支持公共集群和专属集群两种类型,其中专属集群需要提前购买。 | |
队列 | 选择目标队列,展示当前总资源及使用情况。 | |
资源规格 | 选择当前任务所需要的资源规格。 | |
训练模式 | 默认为DDP(分布式训练),如果在单一计算设备上进行机器学习模型训练选择单机训练。 | |
容错训练 | 启动容错训练后,如果训练过程中节点异常,系统会自动重新启用一个新的节点来替换异常节点,从上一个checkpoint开始继续训练。 | |
高级配置 | 断点续训 | 开启容错后,如因为节点故障导致训练任务异常,会封锁故障节点,重新调度训练任务。 |
算力健康检查 | 检查昇腾机器节点的显卡状态、显卡通信状态和交换机状态,以及带宽的压测值。可训练任务详情页查看具体信息。 |
训练任务管理
训练任务创建完成后进入“资源准备中”-“排队中”-“环境准备中”‘“开始运行”-“运行完成”,在这个过程中如果发生任务配置错误、耗时过长或者资源冲突时,可以点击“停止”和“删除”。
复制任务:如果已经创建了一个训练任务可以在列表中点击“复制”,复用该任务的配置和输入参数创建一个新的训练任务。
任务详情:支持查看当前训练任务的配置参数(基础信息、数据集、挂载模型、节点信息)、事件、日志(节点维度)、监控(GPU使用率、CPU使用率内存、网络IO等)、查看Tensorboard和算力检查。任务每次启动都会生成一个新的实例,这里叫做一次运行记录。一次运行记录显示了实例ID、实例最终状态、启动时间。
设置告警
配置告警发送事件:通过告警设置可以监控训练任务状态任务异常、任务断点续训和任务运行完成。默认这三类事件都不开启告警。
配置告警发送方式:消息会自动发送到您天翼云账号对应的手机号和邮箱内,可前往账号中心进行设置或修改。
后续操作
保存至模型管理:将当前训练任务实例中的模型文件保存到模型仓库中统一管理,模型仓库中会新增一个来源为“训练任务”的模型。后续可以基于此模型进行开发机、训练任务和服务部署任务。