动态资源超卖

当前很多业务有波峰和波谷，部署服务时，为了保证服务的性能和稳定性，通常会按照波峰时需要的资源申请，但是波峰的时间可能很短，这样在非波峰时段就有资源浪费。另外，由于在线作业SLA要求较高，为了保证服务的性能和可靠性，通常会申请大量的冗余资源，因此，会导致资源利用率很低、浪费比较严重。

将这些申请而未使用的资源（即申请量与使用量的差值）利用起来，就是资源超卖。超卖资源适合部署离线作业，离线作业通常关注吞吐量，SLA要求不高，容忍一定的失败。

在线作业和离线作业混合部署在Kubernetes集群中将有效地提升集群整体资源利用率。

资源超卖功能特性

说明

当节点池启用动态资源超卖和弹性伸缩时，由于高优先级应用业务资源使用量实时变化，导致超卖资源变化较快，为了避免节点频繁缩容和扩容，在节点缩容评估时暂不考虑超卖资源。

当前特性支持集群内在离线作业混部以及节点CPU和内存资源超卖，关键特性如下：

离线作业优先使用超卖节点
若同时存在超卖与非超卖节点，在离线作业调度过程中，超卖节点得分高于非超卖节点，离线作业优先调度到超卖节点。
在线作业预选超卖节点时只能使用其非超卖资源
在线作业只能使用超卖节点的非超卖资源，离线作业可以使用超卖节点的超卖及非超卖资源。
同一调度周期在线作业先于离线作业调度
在线作业和离线作业同时存在时，优先调度在线作业。当节点资源使用率超过设定的驱逐上限且节点request值超过100%时，将会驱逐离线作业。
内核提供CPU/内存隔离特性
CPU隔离：在线作业能够快速抢占离线作业的CPU资源，并压制离线作业的CPU使用。
内存隔离：系统内存资源用尽触发OOM Kill时，内核优先驱逐离线作业。
Kubelet离线作业准入规则
在调度器将Pod调度到某个节点上之后，Kubelet在启动该Pod之前，会对该Pod进行准入判断，如果此时节点资源无法满足该Pod的Request值，kubelet则拒绝启动该Pod（predicateAdmitHandler.Admit）。满足以下两个条件时，Kubelet准入该Pod：
- 待启动Pod Request与运行的在线作业Request之和 < 节点Allocatable
- 待启动Pod Request与运行的在/离线作业Request之和 < 节点Allocatable + 节点超卖资源
支持超卖和混部分离
开启节点池的混部开关后，默认的混部配置同时打开了混部和超卖功能，节点会被同时打上volcano.sh/colocation="true"和volcano.sh/oversubscription="true"的标签。若只进行在离线作业混部，而不使用超卖资源，需在混部配置中关闭资源超卖特性，关闭超卖特性后volcano.sh/oversubscription="true"标签会被移除。
开启混部或超卖后可使用的特性组合如下：

开启混部	开启超卖	可以使用超卖资源	驱逐离线Pod场景
否	否	否	无
是	否	否	当节点实际资源使用率超过高水位线时，触发离线Pod驱逐
否	是	是	当节点实际资源使用率超过高水位线并且节点Pod的Request和大于100%，触发离线Pod驱逐
是	是	是	当节点实际资源使用率超过高水位线，触发离线Pod驱逐

使用场景约束：集群中引入离线混部与资源超卖机制，能够更高效地利用计算资源，平衡高峰与低谷时期的资源分配，从而提升整体资源利用率并降低运维成本。在应对突发资源需求（如在线业务负载激增）时，系统具备智能的资源调度能力，例如通过CPU QoS策略，在线任务可优先获得计算资源，确保关键业务的稳定运行。当内存需求出现短时增长时，底层操作系统会触发自动内存回收机制，优先回收非活跃数据（例如，离线业务的 page cache）。此过程中，节点性能可能出现轻微波动，但系统会根据资源压力动态调整任务运行状态，从而使整体业务迅速恢复到稳定状态，实现业务连续性和资源效率的有机统一。

kubelet超卖兼容模式

规格约束

集群版本：
v1.19集群：v1.19.16-r4及以上版本
v1.21集群：v1.21.7-r0及以上版本
v1.23集群：v1.23.5-r0及以上版本
v1.25及以上版本
集群类型：CCE Standard集群或CCE Turbo集群。
节点OS：EulerOS 2.9 (内核kernel-4.18.0-147.5.1.6.h729.6.eulerosv2r9.x86_64)或者HCE OS 2.0
节点类型：弹性虚拟机。
Volcano插件版本：1.7.0及以上版本。

使用限制

使用超卖特性时，需保证Volcano未启用overcommit插件。
修改超卖节点标签不会影响已经运行的pod。
运行中的pod无法进行在线和离线业务转换，如需转换需要重建pod。
集群中有节点配置超卖标签volcano.sh/oversubscription=true时，Volcano插件必须要增加oversubscription配置，否则会导致超卖节点调度异常。标签配置需要由用户保证，调度器不会对插件和节点配置进行检查。
超卖特性开关目前不支持统一配置，若要关闭超卖特性，需要同时进行以下操作：
去掉超卖节点的volcano.sh/oversubscription标签。
修改Volcano调度器的名字为volcano-scheduler-configmap的configmap，并去掉oversubscription插件。
当节点设置cpu-manager-policy为静态绑核时，不允许将离线Pod设置为Guaranteed的Pod，若需要绑核则需要调整Pod为在线Pod，否则可能会发生离线Pod占用在线Pod的CPU导致在线Pod启动失败，以及离线Pod虽然调度成功但仍然启动失败的情况。
当节点设置cpu-manager-policy为静态绑核时，不应对所有在线Pod进行绑核，否则会出现在线Pod占用了所有的CPU或者memory资源导致上报的超卖资源很少的情况。

集群中有节点配置超卖标签volcano.sh/oversubscription=true时，Volcano插件必须要增加oversubscription配置，否则会导致超卖节点调度异常。

标签配置需要您自行保证，调度器不会对插件和节点配置进行检查。

超卖标签配置调度说明

插件超卖配置	节点超卖标签	调度行为
有	有	超卖调度
有	无	正常调度
无	无	正常调度
无	有	无法调度，或者调度失败，应避免这种配置

使用kubectl连接集群。
确认Volcano插件配置。

kubectl edit cm volcano-scheduler-configmap -n kube-system

在volcano- scheduler-configmap中查看超卖的相关配置如下。同时确保插件配置中不能包含overcommit插件，如果存在（- name: overcommit），则需要删除该配置。

... 
data: 
volcano-scheduler.conf: | 
actions: "allocate, backfill, preempt"#设置preempt action 
tiers: 
- plugins: 
- name: gang 
enablePreemptable: false 
enableJobStarving: false 
- name: priority 
- name: conformance 
- name: oversubscription 
- plugins: 
- name: drf 
- name: predicates 
- name: nodeorder 
- name: binpack 
- plugins: 
- name: cce-gpu-topology-predicate 
- name: cce-gpu-topology-priority 
- name: cce-gpu 
...

设置节点超卖标签。

超卖节点需增加超卖标签volcano.sh/oversubscription。当节点设置该标签并且值为true时，该节点为超卖节点，否则为非超卖节点。

kubectl label node 192.168.0.0 volcano.sh/oversubscription=true

节点还支持如下超卖相关的阈值。示例如下：

kubectl annotate node 192.168.0.0 volcano.sh/evicting-cpu-high-watermark=70

查询该节点信息：

# kubectl describe node 192.168.0.0 
Name:192.168.0.0 
Roles:<none> 
Labels:... 
volcano.sh/oversubscription=true 
Annotations:... 
volcano.sh/evicting-cpu-high-watermark: 70

节点超卖Annotations

名称	说明
volcano.sh/evicting-cpu-high-watermark	CPU使用率高水位线。当节点CPU使用率超过设置值时，触发离线作业驱逐，节点不可调度。默认值80，即当节点CPU使用率超过80%时，触发离线作业驱逐。
volcano.sh/evicting-cpu-low-watermark	CPU使用率低水位线。CPU使用率高于高水位线时，触发离线作业驱逐，等到节点CPU使用率低于低水位线后，该节点才会重新接纳离线作业。默认值为30，即当节点CPU使用率低于30%后，重新接纳离线作业。
volcano.sh/evicting-memory-high-watermark	内存使用率高水位线。当节点内存使用率超过设置值时，触发离线作业驱逐，节点不可调度。默认值60，即当节点内存使用率超过60%时，触发离线作业驱逐。
volcano.sh/evicting-memory-low-watermark	内存使用率低水位线。节点内存使用率高于高水位线时，触发离线作业驱逐，等到节点内存利用率低于低水位线后，该节点才会重新接纳离线作业。默认值为30，即当节点内存使用率低于30%后，重新接纳离线作业。
volcano.sh/oversubscription-types	超卖资源类型，支持如下三种配置： cpu (超卖CPU) memory (超卖内存) cpu,memory (超卖CPU和内存) 默认值为“cpu,memory”

创建高优、低优priorityClass资源。

cat <<EOF | kubectl apply -f - 

apiVersion: scheduling.k8s.io/v1 
description: Used for high priority pods 
kind: PriorityClass 
metadata: 
name: volcano-production 
preemptionPolicy: PreemptLowerPriority 
value: 999999 
--- 
apiVersion: scheduling.k8s.io/v1 
description: Used for low priority pods 
kind: PriorityClass 
metadata: 
name: volcano-free 
preemptionPolicy: PreemptLowerPriority 
value: -90000 

EOF

部署在离线作业，并分别为在离线作业设置priorityClass。
离线作业需在annotation中增加volcano.sh/qos-level标签以区分其为离线作业，值的范围为-7~7之间的整数，小于0代表低优先级任务，即离线作业，大于等于0代表高优先级任务，即在线作业。在线作业不需要设置该标签。在线、离线作业均需设置schedulerName字段的值为“volcano”，启用Volcano调度器。

说明

在线/在线、离线/离线作业间的优先级暂时未做区分，且未对值的合法性做校验，若设置的离线作业的volcano.sh/qos-level标签值不是-7~0之间的负整数，则统一按在线作业处理。

离线作业：

kind: Deployment 
apiVersion: apps/v1 
spec: 
replicas: 4 
template: 
metadata: 
annotations: 
metrics.alpha.kubernetes.io/custom-endpoints: '[{"api":"","path":"","port":"","names":""}]' 
volcano.sh/qos-level: "-1"# 离线作业注解
spec: 
schedulerName: volcano# 调度器使用Volcano 
priorityClassName: volcano-free# 设置volcano-free priorityClass
...

在线作业：

kind: Deployment 
apiVersion: apps/v1 
spec: 
replicas: 4 
template: 
metadata: 
annotations: 
metrics.alpha.kubernetes.io/custom-endpoints: '[{"api":"","path":"","port":"","names":""}]' 
spec: 
schedulerName: volcano# 调度器使用Volcano 
priorityClassName: volcano-production# 设置volcano-production priorityClass 
...

通过如下命令可查看当前超卖资源量以及资源使用情况。

kubectl describe node <nodeIP>

# kubectl describe node 192.168.0.0 
Name:192.168.0.0 
Roles:<none> 
Labels:... 
volcano.sh/oversubscription=true 
Annotations:... 
volcano.sh/oversubscription-cpu: 2335 
volcano.sh/oversubscription-memory: 341753856 
Allocatable: 
cpu:3920m 
memory:6263988Ki 
Allocated resources: 
(Total limits may be over 100 percent, i.e., overcommitted.) 
ResourceRequestsLimits 
---------------------- 
cpu4950m (126%)4950m (126%) 
memory1712Mi (27%)1712Mi (27%)

其中，CPU单位为m，内存单位为字节。

资源超卖部署示例

下面将通过示例演示混合部署离线作业和在线作业。

假设一个集群存在两个节点，1个超卖节点和1个非超卖节点，如下所示。

# kubectl get node 
NAMESTATUSROLESAGEVERSION 
192.168.0.173Ready<none>4h58mv1.19.16-r2-CCE22.5.1 
192.168.0.3Ready<none>148mv1.19.16-r2-CCE22.5.1

192.168.0.173为超卖节点（包含标签volcano.sh/oversubscription=true）
192.168.0.3为非超卖节点（不包含标签volcano.sh/oversubscription=true）

# kubectl describe node 192.168.0.173 
Name:192.168.0.173 
Roles:<none> 
Labels:beta.kubernetes.io/arch=amd64 
... 
volcano.sh/oversubscription=true

提交离线作业，资源充足的情况下，离线作业都调度到了超卖节点上。

离线作业模板如下。

apiVersion: apps/v1 
kind: Deployment 
metadata: 
name: offline 
namespace: default 
spec: 
replicas: 2 
selector: 
matchLabels: 
app: offline 
template: 
metadata: 
labels: 
app: offline 
annotations: 
volcano.sh/qos-level: "-1"#离线作业标签
spec: 
schedulerName: volcano#调度器使用Volcano 
priorityClassName: volcano-free# 设置volcano-free priorityClass 
containers: 
- name: container-1 
image: nginx:latest 
imagePullPolicy: IfNotPresent 
resources: 
requests: 
cpu: 500m 
memory: 512Mi 
limits: 
cpu: "1" 
memory: 512Mi 
imagePullSecrets: 
- name: default-secret

离线作业调度到超卖节点上运行。

# kubectl get pod -o wide 
NAMEREADYSTATUSRESTARTSAGEIPNODE
offline-69cdd49bf4-pmjp81/1Running05s192.168.10.178192.168.0.173 
offline-69cdd49bf4-z8kxh1/1Running05s192.168.10.131192.168.0.173

提交在线作业，资源充足时，在线作业调度到了非超卖节点。

在线作业模板如下。

apiVersion: apps/v1 
kind: Deployment 
metadata: 
name: online 
namespace: default 
spec: 
replicas: 2 
selector: 
matchLabels: 
app: online 
template: 
metadata: 
labels: 
app: online 
spec: 
schedulerName: volcano# 调度器使用Volcano 
priorityClassName: volcano-production# 设置volcano-production priorityClass 
containers: 
- name: container-1 
image: resource_consumer:latest 
imagePullPolicy: IfNotPresent 
resources: 
requests: 
cpu: 1400m 
memory: 512Mi 
limits: 
cpu: "2" 
memory: 512Mi 
imagePullSecrets: 
- name: default-secret

在线作业调度到非超卖节点上运行。

# kubectl get pod -o wide 
NAMEREADYSTATUSRESTARTSAGEIPNODE
online-ffb46f656-4mwr61/1Running05s192.168.10.146192.168.0.3 
online-ffb46f656-dqdv21/1Running05s192.168.10.67192.168.0.3

提升超卖节点资源使用率，观察触发离线作业驱逐。

部署在线任务到超卖节点（192.168.0.173）上：

apiVersion: apps/v1 
kind: Deployment 
metadata: 
name: online 
namespace: default 
spec: 
replicas: 2 
selector: 
matchLabels: 
app: online 
template: 
metadata: 
labels: 
app: online 
spec: 
affinity:# 提交在线任务至超卖节点
nodeAffinity: 
requiredDuringSchedulingIgnoredDuringExecution: 
nodeSelectorTerms: 
- matchExpressions: 
- key: kubernetes.io/hostname 
operator: In 
values: 
- 192.168.0.173 
schedulerName: volcano# 调度器使用Volcano 
priorityClassName: volcano-production# 设置volcano-production priorityClass 
containers: 
- name: container-1 
image: resource_consumer:latest 
imagePullPolicy: IfNotPresent 
resources: 
requests: 
cpu: 700m 
memory: 512Mi 
limits: 
cpu: 700m 
memory: 512Mi 
imagePullSecrets: 
- name: default-secret

同时提交在/离线作业到超卖节点（192.168.0.173）上。

# kubectl get pod -o wide 
NAMEREADYSTATUSRESTARTSAGEIPNODE
offline-69cdd49bf4-pmjp81/1Running013m192.168.10.178192.168.0.173
offline-69cdd49bf4-z8kxh1/1Running013m192.168.10.131192.168.0.173
online-6f44bb68bd-b8z9p1/1Running03m4s192.168.10.18192.168.0.173
online-6f44bb68bd-g6xk81/1Running03m12s192.168.10.69192.168.0.173

观察超卖节点（192.168.0.173），可以看出存在超卖资源，其中CPU为2343m，内存为3073653200字节。同时CPU分配率已超过100%。

# kubectl describe node 192.168.0.173 
Name:192.168.0.173 
Roles:<none> 
Labels:… 
volcano.sh/oversubscription=true 
Annotations:…
volcano.sh/oversubscription-cpu: 2343 
volcano.sh/oversubscription-memory: 3073653200 
… 
Allocated resources: 
(Total limits may be over 100 percent, i.e., overcommitted.) 
ResourceRequestsLimits 
---------------------- 
cpu4750m (121%)7350m (187%) 
memory3760Mi (61%)4660Mi (76%) 
…

增大节点上在线作业的CPU使用率，可以观察到触发离线作业驱逐。

# kubectl get pod -o wide 
NAMEREADYSTATUSRESTARTSAGEIPNODE
offline-69cdd49bf4-bwdm71/1Running011m192.168.10.208192.168.0.3
offline-69cdd49bf4-pmjp80/1Evicted026m<none>192.168.0.173 
offline-69cdd49bf4-qpdss1/1Running011m192.168.10.174192.168.0.3
offline-69cdd49bf4-z8kxh0/1Evicted026m<none>192.168.0.173 
online-6f44bb68bd-b8z9p1/1Running024m192.168.10.18192.168.0.173 
online-6f44bb68bd-g6xk81/1Running024m192.168.10.69192.168.0.173

错误处理建议

超卖节点kubelet重启后，由于Volcano调度器和kubelet的资源视图不同步，部分新调度的作业会出现OutOfCPU的情况，属于正常现象，一段时间后会恢复正常，Volcano调度器能够正常调度在/离线作业。
在/离线作业提交后，因当前内核不支持离线作业修改为在线作业，因此不建议动态修改作业类型（添加或者删除Pod的annotation volcano.sh/qos-level: "-1"）。
CCE通过cgroups系统中的状态信息收集节点上所有运行的Pod占用的资源量（CPU/内存），可能与用户监控到的资源使用率有所不同，例如使用top命令看到的资源统计。
对于增加超卖资源类型，如超卖资源由cpu变为cpu、memory，此时可以随时添加。

对于减少超卖资源类型，如由cpu、memory变为仅超卖cpu，此时需要在合适的时间进行更改，即分配率不超过100%时才可进行安全更改。

当离线作业先部署到节点，并占用了在线作业的资源，导致资源不足在线作业无法调度时，需要为在线作业设置比离线作业更高的priorityClass。
若节点上只有在线作业，且达到了驱逐水位线，则离线作业调度到当前节点后会很快被驱逐，此为正常现象。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

云容器引擎

云容器引擎

动态资源超卖

资源超卖功能特性

kubelet超卖兼容模式

规格约束

使用限制

资源超卖部署示例

错误处理建议

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

云容器引擎

云容器引擎

动态资源超卖

资源超卖功能特性

kubelet超卖兼容模式

规格约束

使用限制

资源超卖部署示例

错误处理建议