活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      科研助手

      科研助手

        • 产品动态
        • 产品介绍
        • 产品公告
        • Comfyui安全风险通告
        • Pytorch安全风险通告
        • 什么是科研助手
        • 产品特性
        • 产品优势
        • 应用场景
        • 术语解释
        • 约束与限制
        • 科研助手2.0
        • 计费说明
        • 计费概述
        • 计费项
        • 计费方式
        • 套餐包
        • 包周期
        • 欠费说明
        • 快速入门
        • 准备工作
        • 创建开发机
        • 免费体验包
        • 用户指南
        • 总览
        • 开发机
        • 创建开发机
        • 查询开发机
        • 启动开发机
        • 打开开发机
        • VNC介绍
        • 在线IDE介绍
        • 停止开发机
        • 变更开发机规格
        • 保存自定义镜像
        • 变更镜像
        • 删除开发机
        • 查看开发机详情
        • 并行计算
        • 作业管理
        • 作业类型
        • 创建作业
        • 查看作业详情
        • 暂停和恢复作业
        • 终止作业
        • 删除作业
        • 作业监控
        • 模板管理
        • 创建作业模板
        • 通过作业模板创建作业
        • 管理作业模板
        • 创建任务模板
        • 通过任务模板创建作业
        • 管理任务模板
        • 科研服务
        • 服务部署
        • 部署新服务
        • 启动服务
        • 查看服务
        • 停止服务
        • 删除服务
        • 数据存储
        • 存储网络
        • 创建存储网络
        • 查看存储网络
        • 存储源管理
        • 创建存储源
        • 查看存储源
        • 删除存储源
        • 自建NFS存储安全配置
        • 数据集管理
        • 创建数据集
        • 查看数据集列表
        • 查看数据集详情
        • 删除数据集
        • 网盘数据集
        • 在开发环机引用数据集
        • 科研文件管理
        • 创建科研文件
        • 查看科研文件
        • 删除科研文件
        • 镜像管理
        • 查看开发机镜像
        • 分享开发机镜像
        • 删除开发机镜像
        • 资源配额
        • 资源池管理
        • 共享资源池
        • 创建共享集群
        • 管理共享集群
        • 队列管理
        • 创建队列
        • 编辑队列
        • 查看队列列表
        • 查看队列详情
        • 删除队列
        • 科研版
        • 开发机
        • 创建开发机
        • 查询开发机
        • 启动开发机
        • 打开开发机
        • 在线IDE介绍
        • VNC介绍
        • 停止开发机
        • 变更开发机规格
        • 保存自定义镜像
        • 变更镜像
        • 删除开发机
        • 查看开发机详情
        • 并行计算
        • 创建并行计算
        • 查看并行计算
        • 停止并行计算
        • 删除并行计算
        • 并行计算模板
        • 数据存储
        • 数据集管理
        • 创建数据集
        • 查看数据集
        • 删除数据集
        • 上传/下载数据
        • 网盘数据集
        • 在开发机中引用数据集
        • 科研文件管理
        • 创建科研文件
        • 查看科研文件
        • 删除科研文件
        • 自定义镜像
        • 查看开发机镜像
        • 分享开发机镜像
        • 删除开发机镜像
        • CTIAM已上线权限点及说明
        • 最佳实践
        • 开发机快照实例
        • 在科研助手上使用Qwen3进行科研服务
        • 钢筋计数模型训练教学与实践
        • Linux系统基础命令实验
        • MySQL教学与实践
        • 使用科研文件存放和加载专属Conda环境
        • 在科研助手上使用OpenManus快速生成应用
        • 科研助手解锁 OWL 智能体,启动任务 “开挂” 模式
        • 适用于科研教育的主子账号及预警配额设置
        • 在科研助手上使用并行计算训练模型
        • 在科研助手上使用Dify搭建DeepSeek知识库
        • 在科研助手上使用AnythingLLM搭建DeepSeek知识库
        • 在科研助手上使用DeepSeek进行科研服务
        • 在科研助手上使用SD-Trainer进行模型微调
        • 在科研助手上使用Stable Diffusion进行图像生成
        • 在科研助手上使用LangChain-ChatChat-基于本地知识库的问答应用
        • 在科研助手上使用LLaMA Factory进行模型LLMs微调
        • 在科研助手上使用Open WebUI对LLM模型推理
        • 在科研助手上使用ComfyUI进行复杂图像生成
        • 科研助手并行计算使用外部镜像仓库
        • 常见问题
        • 应用类
        • 计费类
        • 功能类
        • 技术运维类
        • API参考
        • API概览
        • 文档下载
        • 操作手册
        • 相关协议
        • 科研助手服务协议
        • 科研助手服务等级协议
        • 科研助手计费协议
        • 社区镜像用户服务协议
        • 科研助手服务条款
        • 科研助手SSH服务使用协议
          无相关产品

          本页目录

          帮助中心科研助手用户指南并行计算作业管理创建作业
          创建作业
          更新时间 2025-02-14 11:49:05
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2025-02-14 11:49:05
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本文介绍如何在科研助手中创建作业。

          前提条件

          1. 作业投递的队列状态为“运行中”。
          2. 队列配额充足。

          操作步骤

          1. 登录科研助手管理控制台。

          2. 在控制台左侧导航栏中,点击【并行计算】。

          3. 在【并行计算】选项中点击【作业管理】。

          4. 在【作业管理】页面中,单击左上角的【创建作业】。

            image.png

          5. 在【创建作业】页面中,配置参数,具体如下表所示。

          参数 说明
          作业名称 输入作业名称。要求如下:长度范围为4~25个字符。名称由小写字母、数字、中划线(-)组成。以小写字母开头。 以小写字母或数字结尾。
          作业类型 作业类型支持分布式训练和虚机。
          队列 选择队列,如果还未创建队列,可单击“创建队列”创建。
          任务组件 可将任务用鼠标拖动至画布中,任务间可以连线串起来,组成一个有向无环图(DAG)
          1. 拖拽作业任务至画布中,用连线组成一个有向无环图(DAG)

            image.png

          2. 在画布中,双击任务名称,编辑任务:

            image.png

          3. 编辑完成后,单击“确定创建”,完成作业创建。

          通用任务参数-容器配置

          通用参数-容器配置用于容器创建的相关参数,是OpenMPI,TensorFlow,PaddlePaddle,Pytorch,Container-Job任务都具备的任务参数,具体参数如下:

          模块

          参数名

          说明

          是否可选

          基本信息

          镜像名称

          镜像的地址,可以手动填写第三方镜像,也可以选择存储在天翼云的镜像

          必填

          容器规格

          选择运行时容器的资源规格,请根据具体训练任务选择合适的资源配置,避免任务因为资源不足而失败(内存和显存是不可压缩资源,重点关注)

          必填

          生命周期

          启动命令

          容器启动后要执行的命令,分为启动命令和运行参数,系统会自动将启动命令和运行参数拼接为具体执行的参数。ls -la命令的正确填入姿势为:命令填入“ls”,参数处填入“-la”

          非必填

          启动后处理

          用于执行启动后的一些脚本,执行顺序在容器创建后,主进程启动后。

          非必填

          停止前处理

          用于做停止前的善后处理,在容器收到删除pod事件前执行,然后才会执行容器终止的指令

          非必填

          容器端口

          端口名称

          •     长度范围为4~32个字符。

          •     名称由小写字母、数字、中划线(-)组成。

          •     以小写字母开头。

          以小写字母或数字结尾。

          同一个pod内不可以重复

          如果添加了容器端口选项,就是必填,否则可选

          容器端口

          1-65535,通常1000以上的整数,具体看容器需要

          同上

          端口协议

          TCP/UDP,默认为TCP,根据实际选择

          同上

          环境变量

          变量名称

          长度范围为255,字母开头,同一个pod内不可以重复

          非必选,添加环境变量选项后必选

          变量/变量引用

          当前只支持固定的变量值

          非必选

          容器存储

          存储类型

          当前只支持文件文成,后续将扩充支持的存储类型

          添加数据集选项后必选

          挂载数据集

          选择需要挂载的数据集

          同上

          容器挂载路径

          数据集要挂载到容器里面的哪个目录

          同上


          image.png

          image.png

          image.png

          image.png

          image.png

          通用任务参数-高级配置

          通用参数-高级配置用于控制任务执行过程中的失败重试策略,作业结束后的清理策略,是OpenMPI,TensorFlow,PaddlePaddle,Pytorch任务都具备的任务参数,具体参数如下:

          参数 说明
          失败重试次数 任务失败后,会再次运行,直到达到重试上限,默认为0代表不重试。
          最大存活时长 任务运行最长的时间,达到最大存活时间后任务会被终止。
          结束后保留时长 任务运行结束后相应容器被保留的时长,如果任务结束后还需要查看日志,请选择适当的保留时长。
          清理策略 这里用于控制pod的清理策略,可以根据任务情况选择不同的清理策略
          1.不清理:会保留所有相关的pod,更方便排查任务失败原因,但是会继续占用资源,可能产生额外的资费(容器处于运行时会占用资源,结束状态不会占用资源)
          2.清理全部实例:会删除所有的pod,资源彻底释放
          3.清理运行中的Pod: 分布式任务运行时,通常有一个Master角色,用于控制整个分布式任务的训练过程,在Master容器成功运行后,通常代表着任务成功了。Worker角色有时是启动后挂起等待Master的指令,这时候Worker是没有常规的退出动作的,可以配置清理运行中的pod,确保任务结束后,不会再占用资源,同时可以查看Master上的日志和相关信息。

          image.png

          Tensorflow任务参数

          TensorFlow分布式训练角色介绍

          1. PS:参数服务器,保存各worker最新的参数,提供参数同步,可以有多个

          2. Worker:

            执行前向和反向传播计算,上传最新参数至chief,可以有多个

          3. Chief: 初始化全局参数,然后广播给所有的worker;保存检查点和事件;保存最终的模型等,只能有一个

          4. evaluator: 对最新的模型参数进行评估

          PS和Chief的差异如下

          chief:用于协调全局训练过程,主要职责是:

          • 初始化全局参数并广播给worker
          • 接收worker上传的最新参数并维护全局最新参数
          • 保存检查点文件和事件文件
          • 选取最优超参数
          • 保存最终的模型参数

          ps:用于参数服务器,主要职责是:

          • 接收各个worker计算得到的最新参数
          • 聚合各个worker的参数,生成全局最新的参数值
          • 为worker和chief提供最新的全局参数值

          所以,chief和ps的主要差异在于:

          1. 职责不同:chief主要用于协调全局训练流程,维护最新最优的超参数和模型参数。ps主要用于同步各个worker的参数,生成全局最新的参数状态。
          2. ps数量可多chief只有一个
          3. ps通常需更强硬件:由于ps负责参数同步和更新,它通常需要更高性能的CPU、GPU和网络来满足计算需求。而chief作为coordinator,硬件要求会相对较低。
          4. ps无需保存训练信息和最终模型:ps只需要同步最新的参数即可,无需保存检查点文件、事件文件和最终模型。这些信息由chief来维护。

          所以总结来说,虽然chief和ps都发挥着重要作用,但其职责差异还是比较明显的:

          • chief:负责全局训练协调与最终模型生成
          • ps:负责高效的参数同步与更新

          二者相互配合,才能实现TensorFlow高性能的分布式深度学习训练。

          训练组合说明

          分组名

          参数

          说明

          任务名称

                 长度范围为4~32个字符。

          •     名称由小写字母、数字、中划线(-)组成。

          •     以小写字母开头。

          以小写字母或数字结尾。

           

          TensorFlow任务的名称(选填)

          任务实例组合

          Worker+Evaluator

          训练中的任务角色组合类型,单机训练可以选择Worker+Evaluator模式,其中Evaluator角色是可选的,

          PS+Worker+Evaluator

          训练中的任务角色组合类型,分布式训练可以选择该模式,其中Evaluator角色是可选的

          PS+Chief+Worker+Evaluator

          训练中的任务角色组合类型,分布式训练可以选择该模式,其中Evaluator角色是可选的


          image.png

          Pytorch任务参数

          Pytorch分布式训练角色介绍

          master:负责全局训练协调,主要职责是:

          • 定义模型和优化器
          • 初始化全局参数并广播给worker
          • 按轮次平均worker的梯度
          • 根据loss选择最优超参数(如学习率)
          • 保存检查点和最终模型

          worker:负责前向和反向传播计算,主要职责是:

          • 接收master下发的初始化参数和最新超参数
          • 根据接收到的全局参数计算loss和梯度
          • 将计算得到的梯度发送给master
          • 接收master同步最新的全局参数

          训练组合说明

          模式 说明
          Master+Worker 标准的分布式训练,Worker数量固定,不同节点会有不一样的rank,选择这个模式时,科研助手平台会自动给容器注入torchrun命令所需的以下环境变量:
          - MASTER_ADDR:master节点的地址
          - MASTER_PORT:master节点开放的端口
          - WORLD_SIZE:这个是节点总数,如果是多机多卡的任务,请重新为该变量赋值
          - RANK:节点在所有节点中的排名
          Elastic Worker 自动弹性扩缩容模式,可以在启动时设置一个最少副本数,会根据配置的资源使用率进行扩容,每次扩容会造成训练的暂停,并在节点间重新分配参数。该模式可以更好的使用资源进行计算,记得及时保存每轮迭代的训练结果,并在启动时加载模型,避免从零开始训练。Worker启动时会选举出一个充当master的角色,弹性分布式训练启动时不需要关注Master+worker的相关参数。

          【Master+Worker模式参数】

          image.png

          【弹性扩缩容模式】

          参数名 说明 是否必填
          模式 Pytorch默认实现c10d,也可以选择etcd模式 必填,选择默认模式即可
          指标 当前仅支持cpu使用率,后续会增加指标种类 必填,不用修改
          期望值 资源的使用率,当资源使用率超过该值时会触发扩容 必填
          最小副本数 训练时最少的副本数,当扩容失败后,会减少副本数,直到该值 必填
          最大副本数 训练时副本数的上限 必填
          扩缩容超时取消时间 当集群资源不足时,扩容出来的副本可能无法运行,当等待时间超过该值时,会取消扩容 可选

          image.png

          Paddle任务参数

          Paddle是百度推出的AI训练框架,在国内产业界应用广泛,对标的是pytorch,训练模式同样支持PS+Worker模式,也支持弹性分布式训练。

          参数服务器(ParameterServer)模式

          采用了一种将模型参数中心化管理的方式来实现模型参数的分布式存储和更新。该模式下的节点/进程有两种不同的角色:

          • 训练节点(Trainer/Worker):该节点负责完成数据读取、从服务节点拉取参数、前向计算、反向梯度计算等过程,并将计算出的梯度上传至服务节点。
          • 服务节点(Server):在收到所有训练节点传来的梯度后,该节点会将梯度聚合并更新参数,供训练节点拉取进行下一轮的训练。

          image.png

          弹性模式

          在分布式训练中,除了容错外,集群的资源剩余情况可能随时间而不同、任务的优先级也可能有不同,

          基于这样的场景,实现弹性训练即任务可以在运行时动态调整训练资源而不影响或尽可能小地影响训练进程,能够最大限度地实现资源利用率提升同时提升训练任务质量。

          paddle目前已支持Collective 训练模式基于热重启的弹性训练方案。热重启即用户的任务进程会被重启,所以需要用户代码中做好checkpoint 逻辑,同时如 batchsize 和learning rate 这样需要随节点数变化的参数也需要用户进程自动调整。

          参数名 说明 是否必填
          模式 Paddle当前只支持etcd模式 必填
          指标 当前仅支持cpu使用率,后续会增加指标种类 必填,不用修改
          期望值 资源的使用率,当资源使用率超过该值时会触发扩容 必填
          最小副本数 训练时最少的副本数,当扩容失败后,会减少副本数,直到该值 必填
          最大副本数 训练时副本数的上限 必填
          扩缩容超时取消时间 当集群资源不足时,扩容出来的副本可能无法运行,当等待时间超过该值时,会取消扩容 可选

          image.png

          Container-Job任务参数

          参数 说明
          运行成功的Pod数 任务要运行多少次
          并行运行的Pod数 任务可以并行运行的数量
          超时时间 任务执行的最长时长,单位秒,超过时长将被停掉重新运行,请设置足够长的值
          重试次数 任务运行失败后,最多重试多少次
          重启策略 任务在什么时候重试

          image.png

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  作业类型
          下一篇 :  查看作业详情
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明