多模态模型训练 3.1.3 配置分布式参数 单机 8 卡训练参数示例: plaintext GPUSPERNODE8 MASTERADDRlocahost MASTERPORT6000 NNODES1 NODERANK0 WORLDSIZE$(($GPUSPERNODE $NNODES)) 3.1.4 启动训练 在终端的MindSpeedLLM工作目录下直接执行训练脚本。 plaintext bash examples/qwen2.5vl/finetuneqwen25vl32b.sh 训练任务启动后,终端将实时打印训练日志。 3.2 训练任务多机训练 多节点训练是提升模型训练效率、实现大规模分布式计算的关键方式。借助平台提供的训练任务功能,通过动态分配计算资源、自动化参数配置和高效的资源管理,能够快速完成大规模的大模型分布式训练。以下是多节点训练Qwen2.5VL32BInstruct的全参微调的详细操作指南: 3.2.1 模型以及数据文件修改 修改对应的参数文件:examples/qwen2.5vl/data32b.json以及examples/qwen2.5vl/model32b.json,根据实际情况修改data32b.json中的数据集路径,包括modelnameorpath、datasetdir、dataset等字段,并根据切分方式以及是否开启激活值重计算修改model32b.json中的相应位置,修改方式与3.1.1中类似。 plaintext "preprocessparameters":{ "modelnameorpath":"/work/home/qwen25vl/MindSpeedMM/modelfromhf/Qwen2.5VL32BInstruct",
来自: