利用开发机进行数据预处理
1. 创建数据集
请参考
2. 数据预处理
由于某些模型数据预处理耗时非常长,建议将数据预处理阶段单独执行,可使用平台提供的在线开发机功能,通过对应的镜像创建VScode开发机,在其中启动终端进行权重和数据移动、数据预处理等工作。
2.1. 创建开发机流程
1. 进入云骁平台,点击左侧工作空间(子账号需要授权),选择工作空间名称,点击进入
2. 在工作空间中,点击左侧开发机,点击创建开发机按钮
3. 在创建开发机界面中,输入名称,选择镜像来源为自定义镜像,镜像选取自定义镜像,选择队列,资源配置正常选1卡足够,如果此节点不需要运行其他任务,也可选8卡,GPU数量确定后,cpu和内存根据卡数占比向下取整,如选1卡,则cpu数量为172/8=21,内存为1382/8=172, 存储选择hpfs共享存储(子账号需要授权),填入容器路径(hpfs中的所有文件都按照这个目录呈现在容器中)
4. 点击创建后,在开发机界面点击启动,待开发机状态变为运行中后,点击打开进入vscode web终端
5. 点击左上角按钮选择Terminal并进入二级菜单New Terminal
6. 进入Terminal操作进行数据预处理
开始训练任务
3.1. 使用处理好的数据
3.2. 创建任务流程
1. 进入云骁平台,点击左侧工作空间(子账号需要授权),选择工作空间名称,点击进入
2. 在工作空间中,点击左侧训练,点击自定义训练,点击新建训练任务按钮
3. 在创建任务界面中,输入名称,选择镜像来源为自定义镜像,镜像选取自定义镜像,选择队列,副本数量填入训练节点数,训练资源脚本中设置为8卡,单副本资源GPU填入8,CPU填入下面提示的单节点总量,内存也填入单节点总量, 存储选择hpfs共享存储(子账号需要授权),容器路径填入对应的路径(hpfs中的所有文件都按照这个目录呈现在容器中)。
训练命令填入以下命令:
/bin/bash
-c
cd /xxx/ && bash train_xxx.sh
注意:自动重启和停滞保留日志的区别如下
1. 任务选择失败后重启:
节点故障:任务重调度后从ckpt开始训练
卡级故障: 根据卡级故障的错误码,重新调度或者重启任务,从ckpt开始训练
业务级别故障(程序本身的报错): 重新启动后从ckpt开始训练
2. 任务选择停滞保留日志(可配置告警):
节点故障:任务重调度后从ckpt开始训练
卡级故障: 根据卡级故障的错误码,重新调度或者重启任务,从ckpt开始训练
任务级别故障(程序本身的报错): 失败后退出