活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 818算力跃迁·礼遇盛夏 NEW 爆款云主机2核2G限时秒杀,28.8元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云AI产品特惠 NEW 8折特惠,新老同享不限购
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
算力互联调度平台
  • 裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
  • Qwen2.5-VL-72B-Instruct
  • StableDiffusion-V2.1
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
AI应用
  • 泛微合同管理解决方案
  • 泛微数智大脑Xiaoe.AI解决方案
  • MaxKB知识库解决方案
  • 天翼AI文创
AI服务
  • 昆仑AI训推服务解决方案
  • 国信模型服务解决方案
企业应用
  • 翼电子签约解决方案
  • 翼协同解决方案
  • 翼电签-契约锁解决方案
  • 翼视频云归档解决方案
教育应用
  • 翼电子教室
  • 潜在AI教育解决方案
建站工具
  • SSL证书
  • 翼定制建站解决方案
  • 翼多端小程序解决方案
办公协同
  • 天翼云企业云盘
  • 安全邮箱
灾备迁移
  • 云管家2.0
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      训推服务

      训推服务

      • 训推服务

      无数据

        • 产品介绍
        • 产品定义
        • 产品优势
        • 功能特性
        • 应用场景
        • 术语解释
        • 使用限制
        • 与其他服务的关系
        • 计费说明
        • 包周期计费模式
        • 按需计费模式-卡时
        • 私有化部署计费模式​
        • 产品退订
        • 快速入门
        • 准备工作
        • 用户使用流程
        • 用户指南
        • 数据工具
        • 数据处理
        • 模型定制
        • 模型精调
        • 模型精调功能介绍
        • 模型精调功能使用
        • 模型开发
        • 训练任务
        • 断点续训
        • 模型服务
        • 服务部署
        • 模型工具
        • 模型评估
        • 模型压缩
        • 训推加速
        • 训练性能加速
        • 模型适配与性能加速
        • 断点续训加速
        • Snapckpt加速
        • 智算资产
        • 模型管理
        • 我的数据集
        • 基础数据集
        • 标注数据集
        • 我的镜像
        • 我的代码包
        • 管理中心
        • 成员管理
        • 资源总览
        • 调度中心
        • 队列管理
        • 设置
        • 资源配额
        • 工作空间管理
        • 创建工作空间
        • 工作空间关联资源
        • 工作空间成员管理
        • 进入工作空间
        • 工作空间角色权限
        • 操作审计
        • 常见问题
        • 计费类
        • 操作类
        • 最佳实践
        • 基于昇腾通用推理镜像的自定义部署
        • 多模态模型训练
        • 基于昇腾通用推理镜像的自定义部署BGE模型
        • 专业模型训练-昇腾环境
        • 专业模型训练-英伟达环境
        • 图像分类模型训练
        • NLP大模型快速微调
        • 保密数据集最佳实践
        • API参考
        • 推理服务API
        • 如何调用API
        • 错误处理
        • 接口类型列表
        • API列表
        • API
        • Chat对话API
        • Image文本生图API
        • Embeddings文本向量化API
        • 模型列表API
        • 模型简介
        • DeepSeek-R1
        • DeepSeek-V3
        • Baichuan2-Turbo
        • Llama3-70B-Instruct
        • Qwen2.5-72B-Instruct
        • Qwen2-72B-Instruct
        • Qwen-VL-Chat
        • TeleChat-12B
        • InternLM2-Chat-7B
        • CodeLlama-34B-Instruct
        • Llama2-Chinese-13B-Chat
        • Chinese-Alpaca-2-13B
        • Qwen-7B-Chat
        • Baichuan2-7B
        • 平台OpenAPI
        • 平台功能API使用说明
        • 文档下载
        • 相关协议
        • 训推智算服务平台服务协议
        • 训推服务用户信息处理规则
          无相关产品

          本页目录

          帮助中心训推服务最佳实践多模态模型训练
          多模态模型训练
          更新时间 2025-09-28 15:10:24
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2025-09-28 15:10:24
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本最佳实践文档旨在为用户提供一个全面、高效的多模态图文理解模型训练样例,涵盖从单机训练到多机分布式训练的全过程。

          一、引言

          本最佳实践文档旨在为用户提供一个全面、高效的多模态图文理解模型训练样例,涵盖从单机训练到多机分布式训练的全过程。通过系统化的步骤指引,用户可以快速熟悉并掌握在平台上进行多模态图文理解模型训练的操作流程,并高效完成训练任务。无论是单机训练还是多机分布式训练,本最佳实践文档均提供了详细的操作步骤与注意事项,帮助用户快速上手并解决可能遇到的问题。

          二、训练准备

          2.1 开发机

          在进行大规模模型训练之前,确保所有的开发环境、模型代码、依赖库、权重文件以及数据集都已准备妥当是至关重要的一步。通过平台提供的模型开发工具,您可以使用vscode轻松实现可视化的IDE操作,简化训练环境的搭建与管理。

          2.1.1 配置开发机

          先创建开发机IDE任务,按照如下步骤展开操作:

          2.1.2 打开IDE

          提交任务后,点击“启动”按钮,任务状态将依次显示启动中->环境准备中->运行中(如果长时间(>1min)界面状态未更新, 可以手动刷新界面),当状态显示为运行中后,点击右侧操作栏“打开”按钮。

          2.1.3 打开终端

          打开后,进入vscode界面,左侧文件管理器中显示了当前集群的共享存储空间/work/home,用户可在此创建文件夹,确保所有节点对文件的访问。用户还可以在终端中进入共享存储目录,执行命令行操作。

          2.1.4 镜像制作

          若您使用天翼云算法团队推荐的qwen25vl镜像,则无论是单机训练还是多机训练,您均可跳过镜像制作步骤;若您想自行体验制作镜像,或是发现推荐的镜像内的cann版本与您当前驱动版本不匹配,则您可以在选择使用基础镜像作为开发机,然后重新在开发机内安装软件依赖以及cann包,最后将开发机中的运行环境保存为镜像。通过保存镜像,您不仅能够在日后快速复用该开发环境,还可以将其应用到多节点训练任务中,确保训练环境的一致性与稳定性。这种方式能够避免因环境差异导致的问题,实现从单机开发到多机分布式训练的无缝衔接。同时,镜像化管理还能在团队协作中发挥重要作用,便于其他成员直接使用统一环境,提升整体研发效率。

          填写镜像名称与版本号后,点击“确定”按钮。

          在左侧“我的镜像”选项卡中可查看镜像制作进度。

          镜像制作完成后,下次创建开发机或训练任务时即可选择该自定义镜像。

          2.2 模型准备

          2.2.1 代码下载

          将工程代码、第三方库下载,并切换到对应的版本号。

          git clone https://gitee.com/ascend/MindSpeed-MM.git 
          git clone https://github.com/NVIDIA/Megatron-LM.git
          cd MindSpeed-MM
          git checkout 2ad39f6
          cd../Megatron-LM
          git checkout core_v0.12.1
          cp -r megatron ../MindSpeed-MM/
          cd../MindSpeed-MM
          mkdir logs
          mkdir model_from_hf
          mkdir model_weights
          mkdir data
          mkdir ckpt

           

          2.2.2 环境搭建

          安装加速包和其他依赖。

          git clone https://gitee.com/ascend/MindSpeed.git
          cd MindSpeed
          git checkout 5176c6f5f133111e55a404d82bd2dc14a809a6ab 
          pip install -e .
          cd..#返回工作目录,确保在MindSpeed-MM目录下面
          pip install -r requirements.txt
          # 若MindSpeed-MM内没有requirements.txt文件,则需要手动进入pyproject.toml文件中,将dependencies中的依赖用pip安装

           

          2.2.3 权重下载

          通过 ModelScope 工具下载模型权重,例如:Qwen2.5-VL-32B-Instruct权重:

          cd ./model_from_hf/
          pip install modelscope
          modelscope download --model Qwen/Qwen2.5-VL-32B-Instruct  --local_dir ./Qwen2.5-VL-32B-Instruct
          modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct  --local_dir ./Qwen2.5-VL-3B-Instruct#3B模型用于单机训练demo
          cd..#返回工作目录,确保在MindSpeed-MM目录下面

           

          2.2.4 权重转换(hf--->megatron)

          将Huggingface格式的权重转换为可运行的切分后的megatron格式权重。

          #Qwen2.5-VL-32B-Instruct,tp2pp8用于全参微调
          python checkpoint/convert_cli.py Qwen2_5_VLConverter hf_to_mm \
            --cfg.mm_dir "./model_weights/qwen25vl_32b_tp2_pp8"\# megatron模型格式的目录
            --cfg.hf_config.hf_dir "./model_from_hf/Qwen2.5-VL-32B-Instruct"\#原始huggingface权重目录
            --cfg.parallel_config.llm_pp_layers [[4,7,8,9,9,9,9,9]]\
            --cfg.parallel_config.vit_pp_layers [[32,0,0,0,0,0,0,0]]\
            --cfg.parallel_config.tp_size 2
          
          #Qwen2.5-VL-32B-Instruct,tp4pp1用于LoRA微调
          python checkpoint/convert_cli.py Qwen2_5_VLConverter hf_to_mm \
            --cfg.mm_dir "./model_weights/qwen25vl_32b_tp4_pp1"\# megatron模型格式的目录
            --cfg.hf_config.hf_dir "./model_from_hf/Qwen2.5-VL-32B-Instruct"\#原始huggingface权重目录
            --cfg.parallel_config.llm_pp_layers [[64]]\
            --cfg.parallel_config.vit_pp_layers [[32]]\
            --cfg.parallel_config.tp_size 4

           

          运行成功后,终端显示如下信息:

          2.3 数据集准备

          2.3.1 数据集下载(以coco2017数据集为例)

          # 下载图文理解数据
          #(1)用户需要自行下载COCO2017数据集COCO2017,并解压到项目目录下的./data/COCO2017文件夹中
          #下载地址:https://cocodataset.org/#download
          
          #(2)获取图片数据集的描述文件(LLaVA-Instruct-150K),下载至./data/路径下,和第(1)步的COCO2017文件夹放同一路径下
          #下载地址:https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/tree/main
          #最终./data文件夹的呈现形式如下:
           ```
             $playground
             ├── data
                 ├── COCO2017
                     ├── train2017
          
                 ├── llava_instruct_150k.json
                 ├── mllm_format_llava_instruct_data.json
                 ...
             ```

           

          请将数据集文件下载到指定目录中,下载完成后请检查文件完整性,为后续的数据预处理环节做好准备。

          2.3.2 数据集预处理

          下载完成后,需要对原始数据集进行预处理,将图片以及图片描述放置同一文件内。以下是预处理的关键步骤:

          vim ./examples/qwen2vl/llava_instruct_2_mllm_demo_format.py
          #修改路径,以下分别是图片描述路径、数据预处理后的文件保存路径、图片路径

           

          修改完成后,直接运行脚本:

           

          python ./examples/qwen2vl/llava_instruct_2_mllm_demo_format.py

           

          运行完成后,终端显示如下信息:

          通过以上步骤,您已成功将原始数据集转换为可直接用于训练的数据格式,此时也可以在文件管理器中看到生成的数据预处理文件。

          三、模型训练

          3.1 开发机-单机训练

          开发机训练是模型开发过程中快速验证代码准确性和训练全流程走通的重要环节。通过开发机训练,可以高效完成模型调试和小参数模型的微调训练,以下是开发机单机训练Qwen2.5-VL-32B-Instruct的LoRA微调的操作指南:

          3.1.1 模型以及数据文件修改

          修改对应的参数文件:examples/qwen2.5vl/data_32b.json以及examples/qwen2.5vl/model_32b.json,根据实际情况修改data_32b.json中的数据集路径,包括model_name_or_path、dataset_dir、dataset等字段,并根据切分方式以及是否开启激活值重计算修改model_32b.json中的相应位置。

          "preprocess_parameters":{
          "model_name_or_path":"/work/home/qwen25vl/MindSpeed-MM/model_from_hf/Qwen2.5-VL-32B-Instruct",#hf原始权重路径
          ...
          }
          "basic_parameters":{
          "dataset_dir":"/work/home/qwen25vl/MindSpeed-MM/data",#data文件夹所在路径
          "dataset":"/work/home/qwen25vl/MindSpeed-MM/data/mllm_format_llava_instruct_data.json",#2.3.2中处理好的数据文件路径
          "cache_dir":"/work/home/qwen25vl/MindSpeed-MM/data/cache_dir_lora",#可指定为任意路径,但是注意cache_dir在多机上不要配置同一个路径避免写入同一个文件导致冲突
          "val_rate":0.1,#指定将训练集划分为验证集的比例,若不设置默认不开启训练集切分
          ...
          }

           

           

          "vision_encoder":{
          "pipeline_num_layers":[32],#vit中pp切分方式,list里每一个数字代表每一个pp_layer中的vision_transformers层的数量,总数为num_layers,需要和2.2.4中权重转换的vit_pp_layers一致
          ...
          }
          "text_decoder":{
          "pipeline_num_layers":[64],#llm中pp切分方式,list里每一个数字代表每一个pp_layer中的transformers层的数量,总数为num_layers,需要和2.2.4中权重转换的llm_pp_layers一致
          ...
          }

           

          3.1.2 训练脚本准备

          在完成环境和权重准备后,可以通过以下步骤启动开发机的单机训练任务:修改examples/qwen2.5vl/finetune_qwen2_5_vl_32b.sh脚本。

          # 根据实际情况配置权重保存、权重加载、词表、数据集路径
          MM_DATA="./examples/qwen2.5vl/data_32b.json"#数据集路径
          MM_MODEL="./examples/qwen2.5vl/model_32b.json"#模型参数路径
          MM_TOOL="./mindspeed_mm/tools/tools.json"#mm工具路径,可不修改
          LOAD_PATH="./model_from_hf/qwen25vl_32b_tp4_pp1"#2.2.4中转换好的权重加载路径
          SAVE_PATH="./ckpt/qwen25vl_32b_lora_tp4_pp1"#新权重保存路径
          ...
          # 单机可以支持32B模型的LoRA微调
          GPT_ARGS="
              --use-mcore-models \
          ...
              --num-workers 8 \
          --lora-r 8 \ # lora参数,若显存占用不多,可增大该参数
              --lora-alpha 16 \ # lora参数
              --lora-target-moduleslinear_qkv linear_proj linear_fc1 linear_fc2 \ # lora参数
          "
          OUTPUT_ARGS="
              --log-interval 1 \
              --save-interval 50 \ #权重保存间隔,即训练多少个iterations保存一个权重
              --eval-interval 50 \#验证间隔,即训练多少个iterations验证一次
              --eval-iters 20 \ #每次验证的iterations数
              --save $SAVE_PATH \
              --ckpt-format torch \
          "

           

          可直接在vscode中,对文本或者代码内容进行修改,文件会自动保存更改,无需每次手动保存。

          3.1.3 配置分布式参数

          单机 8 卡训练参数示例:

          GPUS_PER_NODE=8
          MASTER_ADDR=locahost
          MASTER_PORT=6000
          NNODES=1
          NODE_RANK=0
          WORLD_SIZE=$(($GPUS_PER_NODE * $NNODES))

           

          3.1.4 启动训练

          在终端的MindSpeed-LLM工作目录下直接执行训练脚本。

          bash examples/qwen2.5vl/finetune_qwen2_5_vl_32b.sh

           

          训练任务启动后,终端将实时打印训练日志。

          3.2 训练任务-多机训练

          多节点训练是提升模型训练效率、实现大规模分布式计算的关键方式。借助平台提供的训练任务功能,通过动态分配计算资源、自动化参数配置和高效的资源管理,能够快速完成大规模的大模型分布式训练。以下是多节点训练Qwen2.5-VL-32B-Instruct的全参微调的详细操作指南:

          3.2.1 模型以及数据文件修改

          修改对应的参数文件:examples/qwen2.5vl/data_32b.json以及examples/qwen2.5vl/model_32b.json,根据实际情况修改data_32b.json中的数据集路径,包括model_name_or_path、dataset_dir、dataset等字段,并根据切分方式以及是否开启激活值重计算修改model_32b.json中的相应位置,修改方式与3.1.1中类似。

          "preprocess_parameters":{
          "model_name_or_path":"/work/home/qwen25vl/MindSpeed-MM/model_from_hf/Qwen2.5-VL-32B-Instruct",#hf原始权重路径
          ...
          }
          "basic_parameters":{
          "dataset_dir":"/work/home/qwen25vl/MindSpeed-MM/data",#data文件夹所在路径
          "dataset":"/work/home/qwen25vl/MindSpeed-MM/data/mllm_format_llava_instruct_data.json",#2.3.2中处理好的数据文件路径
          "cache_dir":"/work/home/qwen25vl/MindSpeed-MM/data/cache_dir_full",#可指定为任意路径,但是注意cache_dir在多机上不要配置同一个路径避免写入同一个文件导致冲突,推荐使用非hpfs路径
          "val_rate":0.1,#指定将训练集划分为验证集的比例,若不设置默认不开启训练集切分
          ...
          }

           

           

          "vision_encoder":{
          "pipeline_num_layers":[32,0,0,0,0,0,0,0],#vit中pp切分方式,list里每一个数字代表每一个pp_layer中的vision_transformers层的数量,总数为num_layers,需要和2.2.4中权重转换的vit_pp_layers一致
          ...
          }
          "text_decoder":{
          "pipeline_num_layers":[4,7,8,9,9,9,9,9],#llm中pp切分方式,list里每一个数字代表每一个pp_layer中的transformers层的数量,总数为num_layers,需要和2.2.4中权重转换的llm_pp_layers一致
          ...
          }

           

          3.2.2 训练脚本准备

          多节点全参微调的脚本与单节点LoRA微调的脚本基本一致,但是需要针对分布式参数部分进行相应调整以及去除LoRA参数:

          复制单节点训练脚本:

          # 参考单机训练脚本拷贝出一份多机训练脚本
          cp examples/qwen2.5vl/finetune_qwen2_5_vl_32b.sh examples/qwen2.5vl/finetune_qwen2_5_vl_32b_multinodes.sh

           

          修改分布式参数以及去除LoRA参数:在脚本中,调整以下配置:

          # 根据实际情况配置权重保存、权重加载、词表、数据集路径
          MM_DATA="./examples/qwen2.5vl/data_32b.json"#数据集路径
          MM_MODEL="./examples/qwen2.5vl/model_32b.json"#模型参数路径
          MM_TOOL="./mindspeed_mm/tools/tools.json"#mm工具路径,可不修改
          LOAD_PATH="./model_weights/qwen25vl_32b_tp2_pp8"#2.2.4中转换好的权重加载路径
          SAVE_PATH="./ckpt/qwen25vl_32b_full_tp2_pp8"#新权重保存路径
          ...
          GPUS_PER_NODE=8
          DISTRIBUTED_ARGS="
              --nproc_per_node $GPUS_PER_NODE \
              --nnodes $PET_NNODES \#由平台提供的系统变量自动配置
              --node_rank $PET_NODE_RANK \#由平台提供的系统变量自动配置
              --master_addr $PET_MASTER_ADDR \#由平台提供的系统变量自动配置
              --master_port $PET_MASTER_PORT#由平台提供的系统变量自动配置
          "
          GPT_ARGS="
              --use-mcore-models \
              ...
              --num-workers 8 \
          #--lora-r 8 \ # lora参数,全参微调场景下需剔除
          #--lora-alpha 16 \ # lora参数,全参微调场景下需剔除
          #--lora-target-modules linear_qkv linear_proj linear_fc1 linear_fc2 \ # lora参数,全参微调场景下需剔除
          "
          OUTPUT_ARGS="
              --log-interval 1 \
              --save-interval 50 \ #权重保存间隔,即训练多少个iterations保存一个权重
              --eval-interval 50 \ #验证间隔,即训练多少个iterations验证一次
              --eval-iters 20 \ #每次验证的iterations数
              --save $SAVE_PATH \
              --ckpt-format torch \
          "

           

          3.2.3 创建任务

          多节点集群训练可使用训练任务工具创建多机多卡训练任务,创建任务可通过以下两种方式创建:

          方法一:通过开发机任务创建

          在开发机任务页面中创建训练任务,点击“开始训练”系统会自动选择与开发机一致的镜像版本,保证环境一致性。

          方法二:通过训练任务工具创建

          打开平台左侧“训练任务”选项卡,点击“新建任务”按钮。

          3.2.4 配置任务

          两种方法均会进入任务创建页面:

          启动命令:

           

          cd /work/home/qwen25vl/MindSpeed-MM;
          bash ./examples/qwen2.5vl/finetune_qwen2_5_vl_32b_multinodes.sh

           

          此模式下,不要打开容错训练开关!

          完成所有配置后,点击“提交”按钮,您的训练任务将被创建并开始执行。

          3.2.5 监控任务

          若训练任务成功拉起,任务状态变为运行中。

          点击日志按钮,可实时查看所有节点的训练日志,支持筛选单节点日志或查看全量日志,方便定位问题。

          若启动命令存在错误,任务无法正常启动,可以进入“事件”页面查看错误原因是否存在资源不足、网络超时等提示。或者检查日志中,根据具体报错情况,调整模型配置或训练脚本,并重新提交任务。

          3.3权重转换(megatron--->hf)

          注意:该步骤可以根据客户的具体需要省略或训练完毕并保存权重后执行。

          3.3.1 全参微调

          #以下命令用于将全参微调后的Qwen2.5-VL-32B-Instruct权重转换为Huggingface格式
          python checkpoint/convert_cli.py Qwen2_5_VLConverter mm_to_hf \
          --cfg.save_hf_dir "./model_from_hf/Qwen2.5-VL-32B-Instruct-Full" \# 新的hf模型格式的目录
          --cfg.mm_dir "./ckpt/qwen25vl_32b_full_tp2_pp8" \#全参微调后保存的权重目录
          --cfg.hf_config.hf_dir "./model_from_hf/Qwen2.5-VL-32B-Instruct" \#原始huggingface权重目录
          --cfg.parallel_config.llm_pp_layers [4,7,8,9,9,9,9,9] \#需与2.2.4中切分方式一致
          --cfg.parallel_config.vit_pp_layers [32,0,0,0,0,0,0,0] \#需与2.2.4中切分方式一致
          --cfg.parallel_config.tp_size 2#需与2.2.4中切分方式一致

           

          3.3.2LoRA微调

          LoRA微调后的权重需要先使用权重合并工具merge_lora.py将LoRA权重merge进原始megatron权重,然后通过3.3.1中类似全参微调的方式将合并后的权重转换为Huggingface格式。

          修改examples/qwen2vl/merge_lora.py中的权重路径:

          if __name__ =='__main__':
              base_save_dir ="./model_weights/qwen25vl_32b_tp4_pp1"#原始megatron格式权重路径
              lora_save_dir ="./ckpt/qwen25vl_32b_lora_tp4_pp1"#训练好的lora权重路径
              merge_save_dir ="./ckpt/qwen25vl_32b_lora_merge_tp4_pp1"#合并后的megatron权重路径
              lora_target_modules =['linear_qkv','linear_proj','linear_fc1','linear_fc2']
          
              lora_alpha =16#lora参数,与微调时的参数一致
              lora_r =8#lora参数,与微调时的参数一致
              scaling = lora_alpha / lora_r
          
          # PP parameters: 72B
              pp_size =1#pp与微调时的参数一致
              tp_size =4#tp与微调时的参数一致
          
              use_npu =True
              merge_model(base_save_dir, lora_save_dir, merge_save_dir, pp_size, tp_size)
          print('Finished!')

           

          进行最后的权重转化:

          #以下命令用于将LoRA权重合并后的Qwen2.5-VL-32B-Instruct权重转换为Huggingface格式
          python checkpoint/convert_cli.py Qwen2_5_VLConverter mm_to_hf \
          --cfg.save_hf_dir "./model_from_hf/Qwen2.5-VL-32B-Instruct-LoRA" \ # 新的hf模型格式的目
          --cfg.mm_dir "./ckpt/qwen25vl_32b_lora_merge_tp4_pp1" \ #合并后的megatron权重目录
          --cfg.hf_config.hf_dir "./model_from_hf/Qwen2.5-VL-32B-Instruct" \ #原始huggingface权重目录
          --cfg.parallel_config.llm_pp_layers [64] \ #需与2.2.4中切分方式一致
          --cfg.parallel_config.vit_pp_layers [32] \ #需与2.2.4中切分方式一致
          --cfg.parallel_config.tp_size 4#需与2.2.4中切分方式一致

           

          四、总结

          通过本文档的实践操作,用户可以熟练掌握平台多模态图文理解模型训练的关键流程,包括环境搭建、代码管理、镜像管理、数据处理、权重转换以及单机和多机训练等核心任务。在实际操作中,如果遇到任何问题,可以结合日志信息和平台提供的工具进行排查和优化。随着平台功能的持续升级和优化,相信在未来,用户将能够更加高效地完成大模型的训练任务,并不断探索和应用前沿的人工智能技术。


           

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  基于昇腾通用推理镜像的自定义部署
          下一篇 :  基于昇腾通用推理镜像的自定义部署BGE模型
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明