活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 11.11智惠上云月 NEW 爆款云主机2核2G28.8元/年起!更有限时续费优惠,最低3.5折!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云AI产品特惠 NEW 人脸识别+文字识别焕新,新用户免费试用
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
智算云(DeepSeek专区)
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
算力互联调度平台
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案智云上海应用生态专区
AI应用
  • 泛微合同管理解决方案
  • 泛微数智大脑Xiaoe.AI解决方案
  • MaxKB知识库解决方案
  • 天翼AI文创
AI服务
  • 昆仑AI训推服务解决方案
  • 国信模型服务解决方案
企业应用
  • 翼电子签约解决方案
  • 翼协同解决方案
  • 翼电签-契约锁解决方案
  • 翼视频云归档解决方案
教育应用
  • 翼电子教室
  • 潜在AI教育解决方案
建站工具
  • SSL证书
  • 翼定制建站解决方案
  • 翼多端小程序解决方案
办公协同
  • 天翼云企业云盘
  • 安全邮箱
灾备迁移
  • 云管家2.0
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      智算套件

      智算套件

      • 智算套件

      无数据

        • 产品动态
        • 产品介绍
        • 产品定义
        • 产品优势
        • 产品功能
        • 应用场景
        • 基本概念
        • 使用限制
        • 计费说明
        • 计费项及计费方式
        • 快速入门
        • 创建训练应用
        • 创建推理应用
        • 用户指南
        • 安装与卸载
        • 调度策略
        • AI负载调度
        • GPU共享调度
        • 装箱调度(Binpack)
        • Gang Scheduling调度
        • 最佳实践
        • 创建单机训练任务
        • 创建多机训练任务
        • 常见问题
        • 框架管理
        • 数据集管理
        • 模型管理
        • 队列管理
        • 相关协议
        • 服务协议
        • 服务等级协议
          无相关产品

          本页目录

          帮助中心智算套件用户指南AI负载调度GPU共享调度
          GPU共享调度
          更新时间 2025-11-03 18:59:11
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2025-11-03 18:59:11
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本文介绍GPU共享调度,实现GPU的共享和隔离能力。

          前提条件

          已创建Kubernetes集群,安装好智算套件,并且集群包含NVIDIA GPU节点。

          使用限制

          • 共享GPU调度目前支持仅申请显存和同时申请显存和算力两种任务,这两种任务不能同时存在于一个节点上,即一个节点只运行仅申请显存的任务,或者只运行同时申请显存和算力的任务。

          • 为工作负载申请算力和显存时,有如下限制:

            • 每一张GPU提供的算力按100计量,代表这张卡的100%算力,例如申请50代表使用GPU卡的50%算力。

            • 显存的计算单位为MiB,比如申请1000,则代表工作负载需要1000MiB的显存资源。

          共享GPU调度标签说明

          用户可根据实际使用场景,选择 【仅申请显存】和 【同时申请显存和算力】其中一种的调度能力,给节点打上标签,启用共享调度的能力。

          标签
           
          标签值说明
          ack.node.gpu.scheduleegpu仅显存隔离,不限制算力
          core_mem显存隔离和算力限制

          场景一:仅显存隔离,不限制算力

          步骤1:节点配置共享GPU调度标签。

          kubectl label no <node_name> ccse.node.gpu.schedule=egpu

          步骤2:提交任务,任务YAML如下:

          apiVersion: apps/v1
          kind: Deployment
          metadata:
            name: gpu-share-test
            namespace: default
          spec:
            replicas: 1
            selector:
              matchLabels:
                app: gpu-share-test
            template:
              metadata:
                labels:
                  app: gpu-share-test
              spec:
                containers:
                  - name: gpu-share-test
                    image: registry-vpc-crs-hangzhou7.cnsp-internal.ctyun.cn/library/nvidia-samples:vectoradd-cuda11.6.0-ubi8
                    command:
                      - sleep
                      - 1h
                    resources:
                      limits:
                        ctyun.cn/gpu-memory: '2000' # 单位为MiB,此处代表申请 2000MiB 显存

          步骤3:验证显存隔离能力。

          远程登录到刚刚创建的pod。

          kubectl exec -it <pod_name> -- bash

          执行nvidia-smi查看显存大小,预期输出如下:

          [root@gpu-share-test-77db5c96cd-ghl9b /]# nvidia-smi 
          Mon Nov 25 08:10:08 2024       
          +-----------------------------------------------------------------------------------------+
          | NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
          |-----------------------------------------+------------------------+----------------------+
          | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
          | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
          |                                         |                        |               MIG M. |
          |=========================================+========================+======================|
          |   0  NVIDIA A10                     On  |   00000000:00:06.0 Off |                    0 |
          |  0%   33C    P8             21W /  150W |        0MiB /  2000MiB |      0%      Default |
          |                                         |                        |                  N/A |
          +-----------------------------------------+------------------------+----------------------+

          场景二:显存隔离和算力限制

          步骤1:节点配置共享GPU调度标签

          kubectl label no <node_name> ccse.node.gpu.schedule=core_mem

          步骤2:提交任务,任务YAML如下:

          apiVersion: apps/v1
          kind: Deployment
          metadata:
            name: gpu-share-test
            namespace: default
          spec:
            replicas: 1
            selector:
              matchLabels:
                app: gpu-share-test
            template:
              metadata:
                labels:
                  app: gpu-share-test
              spec:
                containers:
                  - name: gpu-share-test
                    image: deep-learning-examples:v3
                    command:
                      - sleep
                      - 1h
                    resources:
                      limits:
                        ctyun.cn/gpu-core.percentage: "10"  # 每一张GPU提供的算力按100计量,10代表一张一张卡10%的算力
                        ctyun.cn/gpu-memory: '2000'  # 单位为MiB,此处代表申请 2000MiB 显存

          步骤3:验证显存隔离能力。

          远程登录到刚刚创建的pod。

          kubectl exec -it <pod_name> -- bash

          执行nvidia-smi查看显存大小,预期输出如下:

          [root@gpu-share-test-77db5c96cd-ghl9b /]# nvidia-smi 
          Mon Nov 25 08:10:08 2024       
          +-----------------------------------------------------------------------------------------+
          | NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
          |-----------------------------------------+------------------------+----------------------+
          | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
          | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
          |                                         |                        |               MIG M. |
          |=========================================+========================+======================|
          |   0  NVIDIA A10                     On  |   00000000:00:06.0 Off |                    0 |
          |  0%   33C    P8             21W /  150W |        0MiB /  2000MiB |      0%      Default |
          |                                         |                        |                  N/A |
          +-----------------------------------------+------------------------+----------------------+
                                                                                                   
          +-----------------------------------------------------------------------------------------+
          | Processes:                                                                              |
          |  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
          |        ID   ID                                                               Usage      |
          |=========================================================================================|
          |  No running processes found                                                             |
          +-----------------------------------------------------------------------------------------+

          步骤4:执行GPU任务.

          执行以下命令,运行GPU任务。

          time python ./main.py --arch=resnet50 --evaluate --epochs=1 --pretrained -b=5 /imagenet

          执行任务后,查看执行时间。

          DLL 2024-12-08 14:26:52.588591 - Summary: train.data_time : None s train.compute_time : None s val.data_time : 0.00411 s val.compute_latency_at100 : 1.87428 s val.compute_latency_at
          99 : 0.07948 s val.compute_latency_at95 : 0.07825 s
          Experiment ended
          
          real    0m49.596s
          user    0m52.247s
          sys     0m3.520s

          步骤5:调整算力资源,查看任务执行时间。

          将上面工作负载中的ctyun.cn/gpu-core.percentage增大至50。

          resources:
            limits:
              ctyun.cn/gpu-core.percentage: "50"  # 每一张GPU提供的算力按100计量,50代表一张一张卡50%的算力
              ctyun.cn/gpu-memory: '2000'

          执行GPU任务,查看命令输出内容,可以见到耗时减少。

          data_time : 0.00086 s val.compute_latency_at100 : 0.60483 s val.compute_latency_at
          99 : 0.02637 s val.compute_latency_at95 : 0.02540 s
          Experiment ended
          
          real    0m12.447s
          user    0m12.778s
          sys     0m3.486s
          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  AI负载调度
          下一篇 :  装箱调度(Binpack)
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明