条件
- 已创建扩展资源组
- 已创建队列
- 已上传训练所需镜像
- 已创建数据集
操作步骤
- 登录云骁智算控制台,单击左侧菜单栏的菜单项【训练】- 【自定义训练】,点击页面“新建训练任务”按钮。
- 填写训练参数配置。
- 任务创建方式:当前支持自定义镜像训练
- 任务名称:名称请输入不超过60个字符,仅支持中英文、数字、下划线“_”、短横“-”,只能以中英文、数字开头。
- 训练框架、训练模式:当前支持Pytorch框架下的DDP模式,可根据需要开启Deepspeed。
- 所属队列:选择可供训练任务运行的队列。
- 数据集:此处可选择状态为“运行中”的数据集,一个任务最多可添加5个数据集。
- 镜像名称、版本:选择已上传的镜像及版本。
- 启动命令:可执行代码命令,用作训练启动命令。支持一次输入多条命令,多条命令以换行符号进行分隔。
- 训练输出:选择训练后模型路径(ZOS路径),平台会默认将 /opt/ml/ouput 路径下的数据上传至输出ZOS 路径,此处需要填写访问ZOS的endpoint、AK、SK:
- endpoint,使用ZOS内网域名在裸金属节点访问ZOS。需要先创建ZOS对应的vpce,然后用vpce的ip替换zos内网域名中的ip,其他如http和端口等方式保持不变。
- 填写访问秘钥(AK/SK)
- 任务描述:可在此处输入任务描述信息,做多可输入200字。
- 点击“创建”,完成自定义训练任务创建。