云原生混部 kubectl describe node 192.168.0.173 Name:192.168.0.173 Roles: Labels:… volcano.sh/oversubscriptiontrue Annotations:… volcano.sh/oversubscriptioncpu: 2343 volcano.sh/oversubscriptionmemory: 3073653200 … Allocated resources: (Total limits may be over 100 percent, i.e., overcommitted.) ResourceRequestsLimits cpu4750m (121%)7350m (187%) memory3760Mi (61%)4660Mi (76%) … 增大节点上在线作业的CPU使用率,可以观察到触发离线作业驱逐。 plaintext kubectl get pod o wide NAMEREADYSTATUSRESTARTSAGEIPNODE offline69cdd49bf4bwdm71/1Running011m192.168.10.208192.168.0.3 offline69cdd49bf4pmjp80/1Evicted026m 192.168.0.173 offline69cdd49bf4qpdss1/1Running011m192.168.10.174192.168.0.3 offline69cdd49bf4z8kxh0/1Evicted026m 192.168.0.173 online6f44bb68bdb8z9p1/1Running024m192.168.10.18192.168.0.173 online6f44bb68bdg6xk81/1Running024m192.168.10.69192.168.0.173 错误处理建议 超卖节点kubelet重启后,由于Volcano调度器和kubelet的资源视图不同步,部分新调度的作业会出现OutOfCPU的情况,属于正常现象,一段时间后会恢复正常,Volcano调度器能够正常调度在/离线作业。 在/离线作业提交后,因当前内核不支持离线作业修改为在线作业,因此不建议动态修改作业类型(添加或者删除Pod的annotation volcano.sh/qoslevel: "1")。 CCE通过cgroups系统中的状态信息收集节点上所有运行的Pod占用的资源量(CPU/内存),可能与用户监控到的资源使用率有所不同,例如使用top命令看到的资源统计。 对于增加超卖资源类型,如超卖资源由cpu变为cpu、memory,此时可以随时添加。 对于减少超卖资源类型,如由cpu、memory变为仅超卖cpu,此时需要在合适的时间进行更改,即分配率不超过100%时才可进行安全更改。 当离线作业先部署到节点,并占用了在线作业的资源,导致资源不足在线作业无法调度时,需要为在线作业设置比离线作业更高的priorityClass。 若节点上只有在线作业,且达到了驱逐水位线,则离线作业调度到当前节点后会很快被驱逐,此为正常现象。