多模态模型训练 2.2 模型准备 2.2.1 代码下载 将工程代码、第三方库下载,并切换到对应的版本号。 plaintext git clone git clone cd MindSpeedMM git checkout 2ad39f6 cd../MegatronLM git checkout corev0.12.1 cp r megatron ../MindSpeedMM/ cd../MindSpeedMM mkdir logs mkdir modelfromhf mkdir modelweights mkdir data mkdir ckpt 2.2.2 环境搭建 安装加速包和其他依赖。 plaintext git clone cd MindSpeed git checkout 5176c6f5f133111e55a404d82bd2dc14a809a6ab pip install e . cd..返回工作目录,确保在MindSpeedMM目录下面 pip install r requirements.txt 若MindSpeedMM内没有requirements.txt文件,则需要手动进入pyproject.toml文件中,将dependencies中的依赖用pip安装 2.2.3 权重下载 通过 ModelScope 工具下载模型权重,例如:Qwen2.5VL32BInstruct权重: plaintext cd ./modelfromhf/ pip install modelscope modelscope download model Qwen/Qwen2.5VL32BInstruct localdir ./Qwen2.5VL32BInstruct modelscope download model Qwen/Qwen2.5VL3BInstruct localdir ./Qwen2.5VL3BInstruct3B模型用于单机训练demo cd..返回工作目录,确保在MindSpeedMM目录下面 2.2.4 权重转换(hf>megatron) 将Huggingface格式的权重转换为可运行的切分后的megatron格式权重。 plaintext Qwen2.5VL32BInstruct,tp2pp8用于全参微调 python checkpoint/convertcli.py Qwen25VLConverter hftomm cfg.mmdir "./modelweights/qwen25vl32btp2pp8" megatron模型格式的目录 cfg.hfconfig.hfdir "./modelfromhf/Qwen2.5VL32BInstruct"原始huggingface权重目录 cfg.parallelconfig.llmpplayers [[4,7,8,9,9,9,9,9]] cfg.parallelconfig.vitpplayers [[32,0,0,0,0,0,0,0]] cfg.parallelconfig.tpsize 2 Qwen2.5VL32BInstruct,tp4pp1用于LoRA微调 python checkpoint/convertcli.py Qwen25VLConverter hftomm cfg.mmdir "./modelweights/qwen25vl32btp4pp1" megatron模型格式的目录 cfg.hfconfig.hfdir "./modelfromhf/Qwen2.5VL32BInstruct"原始huggingface权重目录 cfg.parallelconfig.llmpplayers [[64]] cfg.parallelconfig.vitpplayers [[32]] cfg.parallelconfig.tpsize 4 运行成功后,终端显示如下信息:
来自: