多模态模型训练 根据实际情况配置权重保存、权重加载、词表、数据集路径 MMDATA"./examples/qwen2.5vl/data32b.json" 数据集路径 MMMODEL"./examples/qwen2.5vl/model32b.json" 模型参数路径 MMTOOL"./mindspeedmm/tools/tools.json" mm工具路径,可不修改 LOADPATH"./modelweights/qwen25vl32btp2pp8" 2.2.4中转换好的权重加载路径 SAVEPATH"./ckpt/qwen25vl32bfulltp2pp8" 新权重保存路径 ... GPUSPERNODE8 DISTRIBUTEDARGS" nprocpernode $GPUSPERNODE nnodes $PETNNODES 由平台提供的系统变量自动配置 noderank $PETNODERANK 由平台提供的系统变量自动配置 masteraddr $PETMASTERADDR 由平台提供的系统变量自动配置 masterport $PETMASTERPORT 由平台提供的系统变量自动配置 " GPTARGS" usemcoremodels ... numworkers 8 lorar 8 lora参数,全参微调场景下需剔除 loraalpha 16 lora参数,全参微调场景下需剔除 loratargetmodules linearqkv linearproj linearfc1 linearfc2 lora参数,全参微调场景下需剔除 " OUTPUTARGS" loginterval 1 saveinterval 50 权重保存间隔,即训练多少个iterations保存一个权重 evalinterval 50 验证间隔,即训练多少个iterations验证一次 evaliters 20 每次验证的iterations数 save $SAVEPATH ckptformat torch " 3.2.3 创建任务 多节点集群训练可使用训练任务工具创建多机多卡训练任务,创建任务可通过以下两种方式创建: 方法一:通过开发机任务创建 在开发机任务页面中创建训练任务,点击“开始训练”系统会自动选择与开发机一致的镜像版本,保证环境一致性。 方法二:通过训练任务工具创建 打开平台左侧“训练任务”选项卡,点击“新建任务”按钮。
来自: