登录
创建和使用天翼云骁智算之前,您需要先注册天翼云门户的账号。如果您拥有天翼云的账号,可登录后直接使用天翼云骁智算。
-
进入天翼云官网,选择“产品-计算-高性能计算-云骁智算”,点击“立即购买”。
-
输入用户名密码,登录云骁智算平台。
-
登陆成功后,跳转至云骁智算产品首页。
资源组
资源组是一组不同计算节点的集合,资源组内可以有不同规格的节点。
-
进入“资源-资源组”菜单,点击“创建资源组”按钮,选择创建“云骁扩展资源组”。
-
在弹出创建资源组界面,依次完成“资源组信息-选择机型-组件配置-信息确认”操作,点击“确定”按钮,创建资源组。
-
在资源组列表中查看新创建的资源组。
队列
创建队列实现资源组内同一规格的配额划分,实现不同规格资源的隔离,便于资源管理和调度。
-
进入“资源-队列”菜单,点击“创建队列”按钮,创建训练使用的队列。
-
选择刚创建的资源组,输入队列名称,选择训练所需要的实例规格和实例数量,点击“创建”,完成队列创建。
-
在队列列表中查看刚创建的队列详情。
数据准备
创建训练任务所需要的数据集,通过云骁智算数据集模块实现训练中用到海量数据的准备与管理。
创建数据集
1.在云骁智算平台首页依次点击数据准备-数据集-创建数据集
2.自定义数据集名称,选择资源组,选择zos的桶名称,填写zos中的文件夹名称,填写zos的endpoint和aksk。本例中训练llama2-7b模型所需的全部文件放在llama2-7b-cwai-ascend-light文件夹中。
3.如果没有ZOS可以点击立即创建前往创建,获取ZOS的access key和secret key
4.进入后点击查看密钥查看对应的access key和secret key
5.查看对象存储的endpoint
6.成功创建数据集
上传数据到ZOS
1)安装s3fs-fuse
yum install s3fs-fuse
2) 挂载
# 生成认证文件, 内容是 ak:sk
echo xxx:xxxx >${HOME}/.passwd
# 修改文件权限
chmod600${HOME}/.passwd
# 创建目标路径
mkdir /mnt/yunxiao
#使用s3fs进行挂载,命令是 s3fs bucket名称 目标路径 -o passwd_file=认证文件 -o url=域名或vpce地址 -o ensure_diskfree=2048 -o use_path_request_style
s3fs yunxiao /mnt/yunxiao -o passwd_file=/root/.passwd -o url=https://xinan2.zos.ctyun.cn -o ensure_diskfree=2048 -o use_path_request_style
3)检查挂载并使用
使用df -h查看目录是否挂载成功, 成功后拷贝文件到目标路径即拷贝到对应bucket中,在目录下新建子目录也会同步到bucket中
4)下载本例中训练llama2-7b所需文件到物理机zos挂载目录并解压:(文件正在上传中)
wget xxx
tar -xvf xxx
自定义训练
创建自定义训练任务实现一键提交任务,内置加速服务组件,训练加速实现并行优化、框架通信优化、通信原语优化、混合精调训练等能力。
-
点击训练-自定义训练-新建训练任务
-
填写训练任务的相关配置
-
llama2-7b全参数微调任务需要的队列规格为Ascend910B-Full-Mesh-64G 8卡 192C 1536G填写数据集挂载目录后会将zos的目录挂载到/opt/ml/input/data/容器内目录,本例中的zos目录llama2-7b-cwai-ascend-light挂载到容器中的/opt/ml/input/data/data目录。
/bin/bash -c cd /opt/ml/input/data/data/AscendSpeed &&chmod +x ./run_tune_tp8pp1.sh &&DATA_PATH=./examples/llama2/finetune_dataset OUTPUT_DIR=/opt/ml/output/test-llama2-7b-ascend LOG_DIR=/opt/ml/log/tb-test-llama2-7b MICRO_BATCH=4GLOBAL_BATCH=16LR=1.25e-5 MIN_LR=1.25e-6 TRAIN_STEPS=3000SAVE_INTERVAL=1000 ./run_tune_tp8pp1.sh
llama2-7b全参微调启动命令说明:
DATA_PATH #数据集路径 OUTPUT #训练输出保存路径 LOG_DIR #tensorboard日志保存路径 GLOBAL_BATCH #全局batchsize LR #学习率 TRAIN_STEPS #训练步数 SAVE_INTERVAL #每训练多少步保存一次checkpoint
-
填写训练输出保存的相关配置
-
创建成功后可以看到任务的执行状态等信息。点击详细信息可以查看任务的输出日志