searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

如何在云骁平台上进行数据预处理及训练

2025-05-26 10:21:40
10
0

利用开发机进行数据预处理

1. 创建数据集

请参考

云骁创建数据集

数据上传最佳实践

2.  数据预处理

由于某些模型数据预处理耗时非常长,建议将数据预处理阶段单独执行,可使用平台提供的在线开发机功能,通过对应的镜像创建VScode开发机,在其中启动终端进行权重和数据移动、数据预处理等工作。

2.1.  创建开发机流程

1.  进入云骁平台,点击左侧工作空间(子账号需要授权),选择工作空间名称,点击进入

2.  在工作空间中,点击左侧开发机,点击创建开发机按钮

3.  在创建开发机界面中,输入名称,选择镜像来源为自定义镜像,镜像选取自定义镜像,选择队列,资源配置正常选1卡足够,如果此节点不需要运行其他任务,也可选8卡,GPU数量确定后,cpu和内存根据卡数占比向下取整,如选1卡,则cpu数量为172/8=21,内存为1382/8=172, 存储选择hpfs共享存储(子账号需要授权),填入容器路径(hpfs中的所有文件都按照这个目录呈现在容器中)

4.  点击创建后,在开发机界面点击启动,待开发机状态变为运行中后,点击打开进入vscode web终端

5.  点击左上角按钮选择Terminal并进入二级菜单New Terminal

6. 进入Terminal操作进行数据预处理

 开始训练任务

3.1.  使用处理好的数据

确定处理好的数据在共享存储中的相对位置,可使用软链接改变目录位置。

3.2.  创建任务流程

1.  进入云骁平台,点击左侧工作空间(子账号需要授权),选择工作空间名称,点击进入

2.  在工作空间中,点击左侧训练,点击自定义训练,点击新建训练任务按钮

3.  在创建任务界面中,输入名称,选择镜像来源为自定义镜像,镜像选取自定义镜像,选择队列副本数量填入训练节点数,训练资源脚本中设置为8卡,单副本资源GPU填入8,CPU填入下面提示的单节点总量,内存也填入单节点总量, 存储选择hpfs共享存储(子账号需要授权),容器路径填入对应的路径(hpfs中的所有文件都按照这个目录呈现在容器中)。

训练命令填入以下命令:

 

/bin/bash
-c
cd /xxx/ && bash train_xxx.sh

 

注意:自动重启和停滞保留日志的区别如下

 

1. 任务选择失败后重启:
节点故障:任务重调度后从ckpt开始训练
卡级故障: 根据卡级故障的错误码,重新调度或者重启任务,从ckpt开始训练
业务级别故障(程序本身的报错): 重新启动后从ckpt开始训练
 
2. 任务选择停滞保留日志(可配置告警):
节点故障:任务重调度后从ckpt开始训练
卡级故障: 根据卡级故障的错误码,重新调度或者重启任务,从ckpt开始训练
任务级别故障(程序本身的报错): 失败后退出

 

 

0条评论
0 / 1000
王伟
4文章数
0粉丝数
王伟
4 文章 | 0 粉丝
原创

如何在云骁平台上进行数据预处理及训练

2025-05-26 10:21:40
10
0

利用开发机进行数据预处理

1. 创建数据集

请参考

云骁创建数据集

数据上传最佳实践

2.  数据预处理

由于某些模型数据预处理耗时非常长,建议将数据预处理阶段单独执行,可使用平台提供的在线开发机功能,通过对应的镜像创建VScode开发机,在其中启动终端进行权重和数据移动、数据预处理等工作。

2.1.  创建开发机流程

1.  进入云骁平台,点击左侧工作空间(子账号需要授权),选择工作空间名称,点击进入

2.  在工作空间中,点击左侧开发机,点击创建开发机按钮

3.  在创建开发机界面中,输入名称,选择镜像来源为自定义镜像,镜像选取自定义镜像,选择队列,资源配置正常选1卡足够,如果此节点不需要运行其他任务,也可选8卡,GPU数量确定后,cpu和内存根据卡数占比向下取整,如选1卡,则cpu数量为172/8=21,内存为1382/8=172, 存储选择hpfs共享存储(子账号需要授权),填入容器路径(hpfs中的所有文件都按照这个目录呈现在容器中)

4.  点击创建后,在开发机界面点击启动,待开发机状态变为运行中后,点击打开进入vscode web终端

5.  点击左上角按钮选择Terminal并进入二级菜单New Terminal

6. 进入Terminal操作进行数据预处理

 开始训练任务

3.1.  使用处理好的数据

确定处理好的数据在共享存储中的相对位置,可使用软链接改变目录位置。

3.2.  创建任务流程

1.  进入云骁平台,点击左侧工作空间(子账号需要授权),选择工作空间名称,点击进入

2.  在工作空间中,点击左侧训练,点击自定义训练,点击新建训练任务按钮

3.  在创建任务界面中,输入名称,选择镜像来源为自定义镜像,镜像选取自定义镜像,选择队列副本数量填入训练节点数,训练资源脚本中设置为8卡,单副本资源GPU填入8,CPU填入下面提示的单节点总量,内存也填入单节点总量, 存储选择hpfs共享存储(子账号需要授权),容器路径填入对应的路径(hpfs中的所有文件都按照这个目录呈现在容器中)。

训练命令填入以下命令:

 

/bin/bash
-c
cd /xxx/ && bash train_xxx.sh

 

注意:自动重启和停滞保留日志的区别如下

 

1. 任务选择失败后重启:
节点故障:任务重调度后从ckpt开始训练
卡级故障: 根据卡级故障的错误码,重新调度或者重启任务,从ckpt开始训练
业务级别故障(程序本身的报错): 重新启动后从ckpt开始训练
 
2. 任务选择停滞保留日志(可配置告警):
节点故障:任务重调度后从ckpt开始训练
卡级故障: 根据卡级故障的错误码,重新调度或者重启任务,从ckpt开始训练
任务级别故障(程序本身的报错): 失败后退出

 

 

文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0