活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      云容器引擎

      云容器引擎

        • 产品动态
        • 产品简介
        • 产品定义
        • 产品优势
        • 产品特性
        • 应用场景
        • 使用限制
        • 相关术语解释
        • 与其它服务的关系
        • 快速入门
        • 入门指引
        • 准备工作
        • 快速创建Kubernetes集群
        • 镜像创建无状态工作负载(Nginx)
        • 计费说明
        • 计费模式
        • 计费项与产品价格
        • 包年/包月计费
        • 按需计费
        • 规格变更
        • 计费模式变更
        • 退订
        • 用户指南
        • 什么是云容器引擎
        • 高危操作及解决方案
        • 集群管理
        • 集群概述
        • 集群基本信息
        • 集群Kubernetes版本发布说明
        • CCE发布Kubernetes 1.29版本说明
        • CCE发布Kubernetes 1.28版本说明
        • CCE发布Kubernetes 1.27版本说明
        • CCE发布Kubernetes 1.25版本说明
        • CCE发布Kubernetes 1.23版本说明
        • (停止维护)CCE发布Kubernetes 1.21版本说明
        • (停止维护)CCE发布Kubernetes 1.19版本说明
        • (停止维护)CCE发布Kubernetes 1.17版本说明
        • (停止维护)CCE发布Kubernetes 1.15版本说明
        • (停止维护)CCE发布Kubernetes 1.13版本说明
        • (停止维护)CCE发布Kubernetes 1.11版本说明
        • (停止维护)CCE发布Kubernetes 1.9及之前版本说明
        • 购买集群
        • CCE Turbo集群与CCE集群的区别
        • iptables与IPVS如何选择
        • 购买集群
        • 访问集群
        • 通过X509证书连接集群
        • 通过kubectl连接集群
        • 通过自定义域名访问集群
        • 集群升级
        • 集群升级概述
        • 升级前须知
        • 升级前检查
        • 节点限制检查
        • 黑名单检查
        • 插件检查
        • Helm模板检查
        • Master节点SSH联通性检查
        • 节点池检查
        • 安全组检查
        • ARM节点限制检查
        • 残留待迁移节点检查
        • K8S废弃资源检查
        • 兼容性风险检查
        • 节点CCEAgent版本检查
        • 节点CPU使用率检查
        • CRD检查
        • 节点磁盘检查
        • 节点DNS检查
        • 节点关键目录文件权限检查
        • 节点Kubelet检查
        • 节点内存检查
        • 节点时钟同步服务器检查
        • 节点OS检查
        • 节点CPU数量检查
        • 节点Python命令检查
        • ASM网格版本检查
        • 节点Ready检查
        • 节点journald检查
        • 节点干扰ContainerdSock检查
        • 内部错误
        • 节点挂载点检查
        • K8S节点污点检查
        • everest插件版本限制检查
        • cce-hpa-controller插件限制检查
        • 动态绑核检查
        • 升级后验证
        • 业务验证
        • 存量Pod检查
        • 存量节点与容器网络检查
        • 存量节点标签与污点检查
        • 新建节点检查
        • 新建Pod检查
        • 重置跳过节点检查
        • 重置升级/滚动升级(1.13版本)
        • 原地升级
        • 集群跨版本业务迁移
        • 管理集群
        • 删除集群(按需计费)
        • 退订/释放集群(包年/包月)
        • 变更集群规格
        • 续费集群(包年/包月)
        • 休眠与唤醒集群(按需计费)
        • 更改集群节点的默认安全组
        • 配置管理
        • 获取集群证书
        • 节点管理
        • 节点概述
        • 节点须知
        • 容器引擎
        • 节点操作系统
        • 安全容器与普通容器
        • 节点最多可以创建多少个Pod
        • 节点预留资源计算公式
        • 数据盘空间分配说明
        • 创建节点
        • 纳管节点
        • 移除节点
        • 重置节点
        • 登录节点
        • 管理节点标签
        • 管理节点污点(taint)
        • 节点排水
        • 同步云服务器
        • 删除节点
        • 节点关机
        • 节点滚动升级
        • 将节点容器引擎从Docker迁移到Containerd
        • 节点池管理
        • 节点池概述
        • 创建节点池
        • 管理节点池
        • 调度管理
        • 调度概述
        • CPU调度
        • GPU调度
        • 工作负载
        • 工作负载概述
        • 创建无状态负载(Deployment)
        • 创建有状态负载(StatefulSet)
        • 创建守护进程集(DaemonSet)
        • 创建普通任务(Job)
        • 创建定时任务(CronJob)
        • 管理工作负载和任务
        • 容器设置
        • 容器基本信息
        • 如何使用第三方镜像
        • 设置容器规格
        • 设置容器生命周期
        • 设置容器健康检查
        • 设置环境变量
        • 健康检查UDP协议安全组规则说明
        • 配置镜像拉取策略
        • 时区同步
        • 工作负载升级配置
        • 调度策略(亲和与反亲和)
        • 实例缩容优先级说明
        • 登录容器
        • Pod标签与注解
        • 网络管理
        • 网络概述
        • 容器网络模型
        • 容器网络模型对比
        • 容器隧道网络
        • VPC网络
        • 云原生网络2.0
        • Service
        • Service概述
        • 集群内访问(ClusterIP)
        • 节点访问(NodePort)
        • 负载均衡(LoadBalancer)
        • Headless Service
        • Service Annotations说明
        • Ingress
        • Ingress概述
        • 通过控制台使用ELB Ingress
        • 通过控制台使用Nginx Ingress
        • DNS
        • DNS概述
        • 工作负载DNS配置说明
        • 使用CoreDNS实现自定义域名解析
        • 使用NodeLocal DNSCache提升DNS性能
        • 容器网络配置
        • 主机网络hostNetwork
        • Pod互访QoS限速
        • 容器隧道网络配置
        • 容器如何访问VPC内部网络
        • 从容器访问公网
        • 存储管理
        • 存储概述
        • 本地磁盘存储
        • 存储卷PV
        • 存储卷声明PVC
        • 存储类StorageClass
        • 快照与备份
        • 本地持久存储卷和临时存储卷
        • 对象存储卷挂载设置自定义访问密钥(AK/SK)
        • 设置挂载参数
        • 运维管理
        • 监控管理
        • 日志管理
        • 使用ICAgent采集容器日志
        • 命名空间
        • 创建命名空间
        • 管理命名空间
        • 设置命名空间级的网络策略
        • 设置资源配额及限制
        • 配置中心
        • 创建配置项
        • 使用配置项
        • 创建密钥
        • 使用密钥
        • 集群系统密钥说明
        • 弹性伸缩
        • 弹性伸缩概述
        • 工作负载弹性伸缩
        • 工作负载伸缩原理
        • 创建工作负载弹性伸缩(HPA)
        • 创建工作负载弹性伸缩(CustomedHPA)
        • CronHPA定时策略
        • 管理工作负载伸缩策略
        • 集群/节点弹性伸缩
        • 节点伸缩原理
        • 创建节点伸缩策略
        • 管理节点伸缩策略
        • 插件管理
        • 插件概述
        • CoreDNS域名解析
        • CCE容器存储(everest)
        • CCE节点故障检测
        • Kubernetes Dashboard
        • CCE集群弹性引擎
        • NGINX Ingress控制器
        • Kubernetes Metrics Server
        • CCE容器弹性引擎
        • prometheus(停止维护)
        • Kubernetes Web终端(停止维护)
        • CCE AI套件(NVIDIA GPU)
        • Volcano调度器
        • 节点本地域名解析加速
        • 云原生监控插件
        • 模板管理(helm)
        • 概述
        • 通过模板部署应用
        • Helm v2与Helm v3的差异及适配方案
        • 通过Helm v2客户端部署应用
        • 通过Helm v3客户端部署应用
        • Helm v2 Release转换成Helm v3 Release
        • 权限管理
        • CCE权限概述
        • 集群权限(IAM授权)
        • 命名空间权限(Kubernetes RBAC授权)
        • 示例:某部门权限设计及配置
        • CCE控制台的权限依赖
        • Pod安全配置
        • PodSecurityPolicy配置
        • Pod Security Admission配置
        • ServiceAccount Token安全性提升说明
        • 系统委托说明
        • 云审计
        • 云审计服务支持的CCE操作列表
        • 查看云审计日志
        • 旧版UI
        • 基本概念
        • 高危操作及解决方案
        • 集群管理
        • 集群概述
        • 集群生命周期
        • 购买混合集群
        • kubectl访问集群
        • Kubectl使用指南
        • 通过kubectl操作CCE集群
        • 通过kubectl配置kube-dns/CoreDNS高可用
        • Kubectl常用命令参考
        • 集群弹性扩容
        • 集群升级
        • 集群版本升级说明
        • 升级集群
        • 集群跨版本业务迁移
        • 管理集群
        • 删除集群
        • 集群休眠与唤醒
        • 配置管理
        • 获取集群证书
        • 集群监控
        • 集群管理权限控制
        • 节点管理
        • 节点概述
        • 购买节点
        • 纳管已有节点到集群
        • 登录节点
        • 节点监控
        • 管理节点标签
        • 同步节点信息
        • 重置节点
        • 删除节点
        • 节点关机
        • 节点滚动升级
        • 节点预留资源计算公式
        • 节点池管理
        • 节点池概述
        • 创建节点池
        • 管理节点池
        • 工作负载
        • 工作负载概述
        • 创建无状态负载(Deployment)
        • 创建有状态负载(StatefulSet)
        • 创建守护进程集(DaemonSet)
        • 创建普通任务(Job)
        • 创建定时任务(CronJob)
        • 管理容器组(Pod)
        • 管理工作负载和任务
        • 工作负载弹性伸缩
        • 容器设置
        • 如何使用第三方镜像
        • 设置容器规格
        • 设置容器生命周期
        • 设置容器启动命令
        • 设置容器健康检查
        • 设置环境变量
        • 采集容器标准输出日志
        • 采集容器内路径日志
        • 对接Prometheus实现自定义指标监控
        • 性能管理配置(性能瓶颈分析)
        • 健康检查UDP协议安全组规则说明
        • Kubernetes集群内置DNS配置说明
        • 亲和/反亲和性调度
        • 调度策略概述
        • 自定义调度策略
        • 节点亲和性
        • 工作负载亲和性
        • 工作负载反亲和性
        • 简易调度策略
        • 工作负载和可用区的亲和性
        • 工作负载和可用区的反亲和性
        • 工作负载和节点的亲和性
        • 工作负载和节点的反亲和性
        • 工作负载间的亲和性
        • 工作负载间的反亲和性
        • 网络管理
        • 网络概述
        • 网络模型
        • 网络模型概述
        • 容器隧道网络
        • VPC网络
        • Service
        • 集群内访问(ClusterIP)
        • 节点访问(NodePort)
        • 负载均衡(LoadBalancer)
        • 通过Kubectl命令行创建Ingress
        • Ingress
        • Ingress概述
        • 基本功能操作
        • NetworkPolicy
        • 存储管理
        • 存储概述
        • 本地磁盘存储
        • 云硬盘存储卷
        • 云硬盘存储卷使用说明
        • 使用云硬盘存储卷
        • 使用kubectl自动创建云硬盘
        • 使用kubectl对接已有云硬盘
        • 使用kubectl部署带云硬盘存储卷的工作负载
        • 文件存储卷
        • 文件存储卷使用说明
        • 使用文件存储卷
        • 极速文件存储卷
        • 极速文件存储卷使用说明
        • 使用极速文件存储卷
        • 快照与备份
        • 命名空间
        • 创建命名空间
        • 管理命名空间
        • 设置命名空间级的网络策略
        • 设置资源配额及限制
        • 配置中心
        • 创建配置项
        • 使用配置项
        • 创建密钥
        • 使用密钥
        • 模板市场
        • 模板概述
        • 准备模板包
        • 上传模板包
        • 通过模板创建工作负载
        • 使用弹性负载均衡
        • 插件管理
        • 插件概述
        • CoreDNS(系统资源插件,必装)
        • Everest(系统资源插件,必装)
        • storage-driver(系统资源插件,必装)
        • autoscaler
        • metrics-server
        • cce-hpa-controller
        • prometheus
        • gpu-beta
        • 弹性伸缩
        • 弹性伸缩概述
        • 工作负载弹性伸缩
        • 工作负载伸缩原理
        • 创建工作负载弹性伸缩(HPA)
        • 创建工作负载弹性伸缩(CustomedHPA)
        • 管理工作负载伸缩策略
        • 集群/节点弹性伸缩
        • 节点伸缩原理
        • 创建节点伸缩策略
        • 管理节点伸缩策略
        • 节点伸缩常见问题
        • 权限管理
        • CCE权限概述
        • 集群权限
        • 命名空间权限
        • 创建用户并授权使用CCE
        • 设置集群权限
        • 设置命名空间权限
        • CCE控制台的权限依赖
        • 云监控服务
        • 支持的监控指标
        • 设置告警规则
        • 查看监控指标
        • 云审计服务
        • 云审计服务支持的CCE操作列表
        • 查看云审计日志
        • 相关服务
        • 容器镜像服务
        • 应用运维管理
        • 最佳实践
        • 集群
        • 通过CCE搭建IPv4/IPv6双栈集群
        • 在CCE中实现高可用部署
        • 快速清理已删除节点上的CCE组件
        • 通过kubectl对接多个集群
        • 使用HPA+CA实现工作负载和节点联动弹性伸缩
        • 选择合适的节点数据盘大小
        • 网络
        • 在CCE的集群网络模型选择及区别
        • CCE集群的网络地址段规划实践
        • 迁移
        • 容器镜像迁移
        • 常见问题
        • 常见问题
        • 高频常见问题
        • 计费类
        • 集群类
        • 节点类
        • 节点池类
        • 工作负载类
        • 网络管理类
        • 存储管理类
        • 模板插件类
        • API&kubectl类
        • 域名DNS类
        • 权限类
        • 参考知识类
        • 文档下载
        • 相关协议
        • 云容器引擎产品服务协议
        • 云容器引擎产品服务等级协议
          无相关产品

          本页目录

          帮助中心云容器引擎用户指南插件管理Volcano调度器
          Volcano调度器
          更新时间 2024-03-07 14:48:37
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2024-03-07 14:48:37
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本文主要介绍Volcano调度器。

          插件简介

          Volcano调度器是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。

          Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户。(目前Volcano项目已经在Github开源)

          Volcano针对计算型应用提供了作业调度、作业管理、队列管理等多项功能,主要特性包括:

          • 丰富的计算框架支持:通过CRD提供了批量计算任务的通用API,通过提供丰富的插件及作业生命周期高级管理,支持TensorFlow,MPI,Spark等计算框架容器化运行在Kubernetes上。
          • 高级调度:面向批量计算、高性能计算场景提供丰富的高级调度能力,包括成组调度,优先级抢占、装箱、资源预留、任务拓扑关系等。
          • 队列管理:支持分队列调度,提供队列优先级、多级队列等复杂任务调度能力。

          项目开源地址:https://github.com/volcano-sh/volcano

          安装插件

          步骤 1 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件管理”,在右侧找到 Volcano ,单击“安装”。

          步骤 2 该插件可配置“单实例”、“高可用”或自定义规格。

          选择自定义时,volcano-controller和volcano-scheduler的建议值如下:

          • 小于100个节点,可使用默认配置,即CPU的申请值为500m,限制值为2000m;内存的申请值为500Mi,限制值为2000Mi。
          • 高于100个节点,每增加100个节点(10000个Pod),建议CPU的申请值增加500m,内存的申请值增加1000Mi;CPU的限制值建议比申请值多1500m,内存的限制值建议比申请值多1000Mi。

          volcano-controller和volcano-scheduler的建议值

          节点/Pods规模 CPU Request(m) CPU Limit(m) Memory Request(Mi) Memory Limit(Mi)
          50/5k 500 2000 500 2000
          100/1w 1000 2500 1500 2500
          200/2w 1500 3000 2500 3500
          300/3w 2000 3500 3500 4500
          400/4w 2500 4000 4500 5500

          步骤 3 配置volcano默认调度器配置参数。

          ca_cert: ''
          default_scheduler_conf:
          actions: 'allocate, backfill'
          tiers:
          - plugins:
          - name: 'priority'
          - name: 'gang'
          - name: 'conformance'
          - plugins:
          - name: 'drf'
          - name: 'predicates'
          - name: 'nodeorder'
          - plugins:
          - name: 'cce-gpu-topology-predicate'
          - name: 'cce-gpu-topology-priority'
          - name: 'cce-gpu'
          - plugins:
          - name: 'nodelocalvolume'
          - name: 'nodeemptydirvolume'
          - name: 'nodeCSIscheduling'
          - name: 'networkresource'
          server_cert: ''
          server_key: ''
          
          插件 功能 参数说明 用法演示
          binpack 将pod调度到资源使用较高的节点以减少资源碎片 binpack.weight:binpack插件本身在所有插件打分中的权重
          binpack.cpu:cpu资源在资源比重的比例,默认是1
          binpack.memory:memory资源在所有资源中的比例,默认是1l binpack.resources:
          - plugins:
          - name: binpack
          arguments:
          binpack.weight: 10
          binpack.cpu: 1
          binpack.memory: 1
          binpack.resources: nvidia.com/gpu, example.com/foo
          binpack.resources.nvidia.com/gpu: 2
          binpack.resources.example.com/foo: 3
          conformance 跳过关键Pod,比如在kube-system命名空间的Pod,防止这些Pod被驱逐 - -
          gang 将一组pod看做一个整体去分配资源 - -
          priority 使用用户自定义负载的优先级进行调度 - -
          overcommit 将集群的资源放到一定倍数后调度,提高负载入队效率。负载都是deployment的时候,建议去掉此插件或者设置扩大因子为2.0。 overcommit-factor: 扩大因子,默认是1.2 - plugins:
          - name: overcommit
          arguments:
          overcommit-factor: 2.0
          drf 根据作业使用的主导资源份额进行调度,用的越少的优先 - -
          predicates 预选节点的常用算法,包括节点亲和,pod亲和,污点容忍,node ports重复,volume limits,volume zone匹配等一系列基础算法 - -
          nodeorder 优选节点的常用算法 nodeaffinity.weight:节点亲和性优先调度,默认值是1
          podaffinity.weight:pod亲和性优先调度,默认值是1
          leastrequested.weight:资源分配最少的的节点优先,默认值是1
          balancedresource.weight:node上面的不同资源分配平衡的优先,默认值是1
          mostrequested.weight:资源分配最多的的节点优先,默认值是0
          tainttoleration.weight:污点容忍高的优先调度,默认值是1
          imagelocality.weight:node上面有pod需要镜像的优先调度,默认值是1
          selectorspread.weight: 把pod均匀调度到不同的节点上,默认值是0
          volumebinding.weight: local pv延迟绑定调度,默认值是1
          podtopologyspread.weight: pod拓扑调度,默认值是2
          - plugins:
          - name: nodeorder
          arguments:
          leastrequested.weight: 1
          mostrequested.weight: 0
          nodeaffinity.weight: 1
          podaffinity.weight: 1
          balancedresource.weight: 1
          tainttoleration.weight: 1
          imagelocality.weight: 1
          volumebinding.weight: 1
          podtopologyspread.weight: 2
          cce-gpu-topology-predicate GPU拓扑调度预选算法 - -
          cce-gpu-topology-priority GPU拓扑调度优选算法 - -
          cce-gpu 结合CCE的GPU插件支持GPU资源分配,支持小数GPU配置 - -
          numaaware numa拓扑调度 weight: 插件的权重
          networkresource 支持预选过滤ENI需求节点,参数由CCE传递,不需要手动配置 NetworkType: 网络类型(eni或者vpc-router类型) -
          nodelocalvolume 支持预选过滤不符合local volume需求节点 - -
          nodeemptydirvolume 支持预选过滤不符合emptydir需求节点 - -
          nodeCSIscheduling 支持预选过滤everest组件异常节点 - -

          步骤 4 单击“安装”。

          在控制台中修改volcano-scheduler配置

          Volcano允许用户在安装,升级,编辑时,编写Volcano调度器配置信息,并将配置内容同步到volcano-scheduler-configmap里。

          本节介绍如何使用自定义配置,以便用户让volcano-scheduler能更适合自己的场景。

          说明

          仅Volcano 1.7.1及以上版本支持该功能。在新版插件界面上合并了原plugins.eas_service和resource_exporter_enable等选项,以新选项default_scheduler_conf代替。

          您可登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件管理”,在右侧找到 Volcano ,单击“安装”或“升级”,并在“参数配置”中设置Volcano调度器配置参数。

          使用resource_exporter配置,示例如下:

          {
          "ca_cert": "",
          "default_scheduler_conf": {
          "actions": "allocate, backfill",
          "tiers": [
          {
          "plugins": [
          {
          "name": "priority"
          },
          {
          "name": "gang"
          },
          {
          "name": "conformance"
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "drf"
          },
          {
          "name": "predicates"
          },
          {
          "name": "nodeorder"
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "cce-gpu-topology-predicate"
          },
          {
          "name": "cce-gpu-topology-priority"
          },
          {
          "name": "cce-gpu"
          },
          {
          "name": "numa-aware" # add this also enable resource_exporter
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "nodelocalvolume"
          },
          {
          "name": "nodeemptydirvolume"
          },
          {
          "name": "nodeCSIscheduling"
          },
          {
          "name": "networkresource"
          }
          ]
          }
          ]
          },
          "server_cert": "",
          "server_key": ""
          }
          

          开启后可以同时使用volcano-scheduler的numa-aware插件功能和resource_exporter功能。

          • 使用eas_service配置,示例如下:
          {
          "ca_cert": "",
          "default_scheduler_conf": {
          "actions": "allocate, backfill",
          "tiers": [
          {
          "plugins": [
          {
          "name": "priority"
          },
          {
          "name": "gang"
          },
          {
          "name": "conformance"
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "drf"
          },
          {
          "name": "predicates"
          },
          {
          "name": "nodeorder"
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "cce-gpu-topology-predicate"
          },
          {
          "name": "cce-gpu-topology-priority"
          },
          {
          "name": "cce-gpu"
          },
          {
          "name": "eas",
          "custom": {
          "availability_zone_id": "",
          "driver_id": "",
          "endpoint": "",
          "flavor_id": "",
          "network_type": "",
          "network_virtual_subnet_id": "",
          "pool_id": "",
          "project_id": "",
          "secret_name": "eas-service-secret"
          }
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "nodelocalvolume"
          },
          {
          "name": "nodeemptydirvolume"
          },
          {
          "name": "nodeCSIscheduling"
          },
          {
          "name": "networkresource"
          }
          ]
          }
          ]
          },
          "server_cert": "",
          "server_key": ""
          }
          
          • 使用ief配置,示例如下:
          {
          "ca_cert": "",
          "default_scheduler_conf": {
          "actions": "allocate, backfill",
          "tiers": [
          {
          "plugins": [
          {
          "name": "priority"
          },
          {
          "name": "gang"
          },
          {
          "name": "conformance"
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "drf"
          },
          {
          "name": "predicates"
          },
          {
          "name": "nodeorder"
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "cce-gpu-topology-predicate"
          },
          {
          "name": "cce-gpu-topology-priority"
          },
          {
          "name": "cce-gpu"
          },
          {
          "name": "ief",
          "enableBestNode": true
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "nodelocalvolume"
          },
          {
          "name": "nodeemptydirvolume"
          },
          {
          "name": "nodeCSIscheduling"
          },
          {
          "name": "networkresource"
          }
          ]
          }
          ]
          },
          "server_cert": "",
          "server_key": ""
          }
          

          保留原volcano-scheduler-configmap配置

          假如在某场景下希望插件升级后时沿用原配置,可参考以下步骤:

          步骤 1 查看原volcano-scheduler-configmap配置,并备份。

          示例如下:

          #kubectl edit cm volcano-scheduler-configmap -n kube-systemapiVersion: v1
          data:
          default-scheduler.conf: |-
          actions: "enqueue, allocate, backfill"
          tiers:
          - plugins:
          - name: priority
          - name: gang
          - name: conformance
          - plugins:
          - name: drf
          - name: predicates
          - name: nodeorder
          - name: binpack
          arguments:
          binpack.cpu: 100
          binpack.weight: 10
          binpack.resources: nvidia.com/gpu
          binpack.resources.nvidia.com/gpu: 10000
          - plugins:
          - name: cce-gpu-topology-predicate
          - name: cce-gpu-topology-priority
          - name: cce-gpu
          - plugins:
          - name: nodelocalvolume
          - name: nodeemptydirvolume
          - name: nodeCSIscheduling
          - name: networkresource
          

          步骤 2 在控制台“参数配置”中填写自定义修改的内容:

          {
          "ca_cert": "",
          "default_scheduler_conf": {
          "actions": "enqueue, allocate, backfill",
          "tiers": [
          {
          "plugins": [
          {
          "name": "priority"
          },
          {
          "name": "gang"
          },
          {
          "name": "conformance"
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "drf"
          },
          {
          "name": "predicates"
          },
          {
          "name": "nodeorder"
          },
          {
          "name": "binpack",
          "arguments": {
          "binpack.cpu": 100,
          "binpack.weight": 10,
          "binpack.resources": "nvidia.com/gpu",
          "binpack.resources.nvidia.com/gpu": 10000
          }
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "cce-gpu-topology-predicate"
          },
          {
          "name": "cce-gpu-topology-priority"
          },
          {
          "name": "cce-gpu"
          }
          ]
          },
          {
          "plugins": [
          {
          "name": "nodelocalvolume"
          },
          {
          "name": "nodeemptydirvolume"
          },
          {
          "name": "nodeCSIscheduling"
          },
          {
          "name": "networkresource"
          }
          ]
          }
          ]
          },
          "server_cert": "",
          "server_key": ""
          }
          

          说明

          使用该功能时会覆盖原volcano-scheduler-configmap中内容,所以升级时务必检查是否在volcano-scheduler-configmap做过修改。如果是,需要把修改内容同步到升级界面里。

          Volcano 1.0.0版本升级说明

          Volcano 1.0.0版本与后续版本不兼容,不支持在控制台升级。如想使用新版本Volcano插件,需要先卸载1.0.0版本,然后再在控制台安装新版本。

          执行如下命令可以卸载Volcano。

          kubectl delete crd jobs.batch.volcano.sh

          kubectl delete crd commands.bus.volcano.sh

          版本记录

          CCE插件版本记录

          插件版本

          支持的集群版本

          1.7.1

          /v1.19.16.*|v1.21.*|v1.23.*|v1.25.*/

          1.6.5

          /v1.19.*|v1.21.*|v1.23.*/

          1.4.2

          /v1.15.*|v1.17.*|v1.19.*|v1.21.*/

          1.3.3

          /v1.15.*|v1.17.*|v1.19.*/

          1.3.1

          /v1.15.*|v1.17.*|v1.19.*/

          1.2.5

          /v1.15.*|v1.17.*|v1.19.*/

          1.2.3

          /v1.15.*|v1.17.*|v1.19.*/

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  CCE AI套件(NVIDIA GPU)
          下一篇 :  节点本地域名解析加速
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明