活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      一站式智算服务平台

      一站式智算服务平台

        • 产品动态
        • 产品介绍
        • 产品定义
        • 产品优势
        • 功能特性
        • 应用场景
        • 术语解释
        • 使用限制
        • 与其他服务的关系
        • 计费说明
        • 包周期计费模式
        • 按需计费模式-卡时
        • 按需计费模式-Tokens
        • 产品退订
        • 快速入门
        • 准备工作
        • 用户指南
        • 模型广场
        • 体验中心
        • 数据工具
        • 数据处理
        • 模型定制
        • 模型精调
        • 开发机
        • 训练任务
        • 挂载目录
        • 断点续训
        • 模型服务
        • 服务接入
        • 在线服务
        • 调用监控
        • 模型工具
        • 模型评估
        • 模型压缩
        • 训推加速
        • 训练性能与加速
        • 模型的国产化适配与性能加速
        • 断点续训加速
        • 智算资产
        • 我的模型
        • 我的数据集
        • 我的镜像
        • 我的代码包
        • 管理中心
        • 成员管理
        • 资源总览
        • 调度中心
        • 设置
        • 队列管理
        • 工作空间管理
        • 模型简介
        • DeepSeek-R1
        • DeepSeek-V3
        • Baichuan2-Turbo
        • Llama3-70B-Instruct
        • Qwen2.5-72B-Instruct
        • Qwen2-72B-Instruct
        • Qwen-VL-Chat
        • TeleChat-12B
        • InternLM2-Chat-7B
        • 最佳实践
        • 专业模型训练-昇腾环境
        • 专业模型训练-英伟达环境
        • DeepSeek模型调用-快捷版
        • DeepSeek模型调用-专业版
        • 使用专属节点部署DeepSeek服务
        • NLP大模型快速微调
        • 推理服务API
        • 如何调用API
        • 接口类型列表
        • API列表
        • 错误处理
        • API
        • Chat对话API
        • Image文本生图API
        • Embeddings文本向量化API
        • 模型列表API
        • 平台OpenAPI
        • 平台功能API使用说明
        • 常见问题
        • 计费类
        • 操作类
        • 相关协议
        • 一站式智算服务平台服务协议
        • 文档下载
        • 用户使用手册
          无相关产品

          本页目录

          帮助中心一站式智算服务平台最佳实践专业模型训练-昇腾环境
          专业模型训练-昇腾环境
          更新时间 2025-03-05 15:09:59
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2025-03-05 15:09:59
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本文为您展示昇腾环境下模型训练的最佳实践。

          概述

          本指南旨在为用户提供一套全面、高效的模型训练最佳实践,涵盖从环境登录到多机分布式训练的全过程。通过系统化的步骤指引,用户可以快速熟悉并掌握在平台上进行模型训练的操作流程,充分利用平台的强大工具,完成大模型的高效训练任务。无论是单机训练还是多机分布式训练,本指南均提供了详细的操作步骤与注意事项,帮助用户快速上手并解决可能遇到的问题。

          前置条件

          执行本文操作之前, 请完成以下准备工作:

          • 注册天翼云账号,并完成实名认证。

          • 确保天翼云账户余额大于100元。

          说明

          为了方便演示,本文中涉及资源开通的情形,均默认选择按量付费模式。

          平台体验:https://huiju.ctyun.cn/?regionId=200000001852

          环境介绍:本次使用昇腾910B环境进行操作

          CPU: 鲲鹏920 4*48=192

          内存:1536GB

          NPU: 昇腾910B * 8

          主机(风冷机):Atlas 800A2

          训练准备

          开发机

          在进行大规模模型训练之前,确保所有的开发环境、模型代码、依赖库、权重文件以及数据集都已准备妥当是至关重要的一步。通过平台提供的开发机工具,您可以轻松实现可视化的IDE操作,简化训练环境的搭建与管理。

          配置开发机

          先创建开发机IDE任务,按照如下步骤展开操作:

          打开IDE

          提交任务后,点击“启动”按钮,任务状态将依次显示启动中->环境准备中->运行中(如果长时间(>1min)界面状态未更新, 可以使用F5手动刷新界面),当状态显示为运行中后,点击操作栏“打开”按钮。

          打开终端

          打开后,显示vscode界面如下,按照下图步骤打开terminal运行终端:

          左侧文件管理器中显示了当前集群的共享存储空间/work/share,用户可在此创建文件夹,确保所有节点对文件的访问。用户还可以在终端中进入共享存储目录,执行命令行操作。

           镜像制作

          您可以轻松将开发机中的运行环境保存为镜像,通过保存镜像,您不仅能够在日后快速复用该开发环境,还可以将其应用到多节点训练任务中,确保训练环境的一致性与稳定性。这种方式能够避免因环境差异导致的问题,实现从单机开发到多机分布式训练的无缝衔接。同时,镜像化管理还能在团队协作中发挥重要作用,便于其他成员直接使用统一环境,提升整体研发效率。

          填写镜像名称与版本号后,点击“确定”按钮。

          在左侧“我的镜像”选项卡中可查看镜像制作进度。

          镜像制作完成后,下次创建开发机或训练任务时即可选择该自定义镜像。

          模型准备

          代码下载

          将工程代码、第三方库下载,并切换到对应的版本号。

          git clone https://gitee.com/ascend/MindSpeed-LLM.git 
          git clone https://github.com/NVIDIA/Megatron-LM.git
          # 【可替换】国内加速: git clone https://gitdl.cn/https://github.com/NVIDIA/Megatron-LM.git
          cd Megatron-LM
          git checkout core_r0.6.0
          cp -r megatron ../MindSpeed-LLM/
          cd../MindSpeed-LLM
          git checkout 1.0.RC2
          mkdir logs
          mkdir model_from_hf
          mkdir dataset
          mkdir ckpt
          

          环境搭建

          安装加速包和其他依赖。

          git clone https://gitee.com/ascend/MindSpeed.git
          cd MindSpeed
          git checkout 2b0edd2 
          pip install -e .
          cd..
          pip install -r requirements.txt
          

          权重下载

          通过 ModelScope 工具下载模型权重,例如:Llama-2-7b-hf 权重:

          cd ./model_from_hf/
          pip install modelscope
          modelscope download --model shakechen/Llama-2-7b-hf --local_dir ./llama-2-7b-hf
          cd..
          

           权重转换

          将Huggingface格式的权重转换为可运行的切分后的megatron格式权重。

          python tools/checkpoint/convert_ckpt.py \
              --model-type GPT \
              --loader llama2_hf \
              --saver megatron \
              --target-tensor-parallel-size 1\
              --target-pipeline-parallel-size 2\
              --load-dir ./model_from_hf/llama-2-7b-hf/ \
              --save-dir ./model_weights/llama-2-7b-hf-v0.1-tp1-pp2/ \
              --tokenizer-model ./model_from_hf/llama-2-7b-hf/tokenizer.model
          

          运行成功后,终端显示如下信息:

          数据集准备

          数据集下载

          使用 wget 工具从指定地址下载数据集文件。以下命令行下载 alpaca 数据集为例:

          # 下载数据
          cd ./dataset
          wget https://hf-mirror.com/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet
          cd..
          
          
          # 【备选】使用模乐社区下载权重
          # apt install git-lfs
          # git lfs install
          # git clone https://modelers.cn/MindSpore-Lab/llama2-7b-hf.git
          

          此过程会将数据集文件存储到指定目录中,下载完成后请检查文件完整性,为后续的数据预处理环节做好准备。

          数据集预处理

          下载完成后,需对原始数据集进行预处理,以便适配模型训练的需求。以下是预处理的关键步骤:

          # 处理数据   
          mkdir ./dataset/llama-2-7b-hf/
          python ./tools/preprocess_data.py \
              --input ./dataset/train-00000-of-00001-a09b74b3ef9c3b56.parquet \
              --tokenizer-name-or-path ./model_from_hf/llama-2-7b-hf/ \
              --output-prefix ./dataset/llama-2-7b-hf/alpaca \
              --workers 4\
              --log-interval 1000\
              --tokenizer-type PretrainedFromHF
          

          运行完成后,终端显示如下信息:

          通过以上步骤,您已成功将原始数据集转换为可直接用于训练的数据格式,此时也可以在文件管理器中看到生成的数据预处理文件。

          模型训练

          开发机-单机训练

          开发机训练是模型开发过程中快速验证代码和训练流程的重要环节。通过开发机训练,可以高效完成模型调试和小规模实验,以下是开发机模型训练的操作指南。

          训练脚本准备

          在完成环境和权重准备后,可以通过以下步骤启动开发机的模型训练任务:修改examples/llama2/pretrain_llama2_7b_ptd.sh脚本

          # 根据实际情况配置权重保存、权重加载、词表、数据集路径
          CKPT_SAVE_DIR="./ckpt/llama-2-7b"#新权重保存路径
          DATA_PATH="./dataset/llama-2-7b-hf/alpaca_text_document"#数据集路径
          TOKENIZER_MODEL="./model_from_hf/llama-2-7b-hf/tokenizer.model"#词表路径
          CKPT_LOAD_DIR="./model_weights/llama-2-7b-hf-v0.1-tp1-pp2"#权重加载路径
          

          可直接在VScode中,使用文本编辑其中进行修改,文本编辑器内的内容会自动保存更改,无需每次手动保存。

          配置分布式参数

          单机 8 卡训练参数示例:

          GPUS_PER_NODE=8
          MASTER_ADDR=localhost
          MASTER_PORT=6000
          NNODES=1
          NODE_RANK=0
          WORLD_SIZE=$(($GPUS_PER_NODE * $NNODES))
          

           启动训练

          在终端的MindSpeed-LLM工作目录下直接执行训练脚本。

          bash examples/llama2/pretrain_llama2_7b_ptd.sh
          

          说明

          由于原框架问题,第一次运行失败的话,可以尝试重复启动一下。

          训练任务启动后,终端将实时打印训练日志。

          训练任务-多机训练

          多节点训练是提升模型训练效率、实现大规模分布式计算的关键方式。借助平台提供的训练任务工具,通过动态分配计算资源、自动化参数配置和高效的资源管理,能够快速完成大规模模型的分布式训练。以下是多节点训练的详细操作指南。

          训练脚本准备

          多节点训练的脚本与单节点训练脚本基本一致,仅需针对分布式参数部分进行相应调整。

          复制单节点训练脚本。

          # 参考单机训练脚本拷贝出一份多机训练脚本
          cpexamples/llama2/pretrain_llama2_7b_ptd.shexamples/llama2/pretrain_llama2_7b_multinodes.sh
          

          修改分布式参数,在脚本中,调整以下配置:

          # examples/llama2/pretrain_llama2_7b_multinodes.sh
          GPUS_PER_NODE=8
          DISTRIBUTED_ARGS="
              --nproc_per_node $GPUS_PER_NODE \
              --nnodes $PET_NNODES \
              --node_rank $PET_NODE_RANK \
              --master_addr $PET_MASTER_ADDR \
              --master_port $PET_MASTER_PORT
          "
          

          参数说明

          • $GPUS_PER_NODE:每个节点的 GPU 数量,由用户自行配置。

          • $NNODES:总节点数,由用户自行配置。

          • $PET_NNODES、$PET_NODE_RANK、$PET_MASTER_ADDR、$PET_MASTER_PORT:由平台提供的系统变量自动配置。

          创建任务

          多节点集群训练可使用训练任务工具创建多机多卡训练任务,创建任务可通过以下两种方式创建。

          • 方法一:通过开发机任务创建

          在开发机任务页面中创建训练任务,系统会自动选择与开发机一致的镜像版本,保证环境一致性。

          • 方法二:通过训练任务工具创建

          打开平台左侧“训练任务”选项卡,点击“新建任务”按钮。

          配置任务

          两种方法均会进入任务创建页面。

          启动命令:

          cd /work/share/demo/MindSpeed-LLM;
          bash examples/llama2/pretrain_llama2_7b_multinodes.sh;
          

          注意

          此模式下,不要打开容错训练开关!

          完成所有配置后,点击“提交”按钮,您的训练任务将被创建并开始执行。

          监控任务

          若训练任务成功拉起,任务状态变为运行中。

          点击日志按钮,可实时查看所有节点的训练日志,支持筛选单节点日志或查看全量日志,方便定位问题。

          若启动命令存在错误,任务无法正常启动,可以进入“事件”页面查看错误原因是否存在资源不足、网络超时等提示。或者检查日志中,根据具体报错情况,调整模型配置或训练脚本,并重新提交任务。

          结语

          通过本文档的实践操作,用户可以熟练掌握平台模型训练的关键流程,包括环境搭建、代码管理、镜像管理、数据处理、权重转换以及单机和多机训练等核心任务。在实际操作中,如果遇到任何问题,可以结合日志信息和平台提供的工具进行排查和优化。随着平台功能的持续升级和优化,相信在未来,用户将能够更加高效地完成大模型的训练任务,并不断探索和应用前沿的人工智能技术。

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  最佳实践
          下一篇 :  专业模型训练-英伟达环境
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明