参考Kube-Scheduler设计模式，一种机房推荐与资源调度方案-天翼云开发者社区

场景描述

负责管理线上云主机生命周期的混合云管理系统需要自动化的机房调度模式：根据监控数据，流量水位，成本指数等指标，在一定的区域范围内，根据亲和性选择最优的机房并开机交付给业务。例如，存在区域-机房集合A{a,b,c}, B{d,e,f}，根据成本指数X、带宽水位Y选择区域A内没有被标记禁用的最优的机房。此刻的指标数值分别为：

	X{weight: 10}	Y:{weight: 100}
a	1	1
b	2	2
c {污点：禁止调度}	3	3
d {亲和性：倾向调度}	2	2

❝
表格省略了区域B的数值
❞

此时，我们首先筛选出区域A的机房，得到{a,b,c}

然后，根据权重计算，得到：

	X{weight: 10}	Y:{weight: 100}	权重（简单相加）
a	1	1	110
b	2	2	220
c {污点：禁止调度}	3	3	330
d {亲和性：倾向调度}	2	2	220

此时排序为c,d|b,a，但是由于c禁止调度，被排除；d、b同分，但是由于亲和性设置，d被设置为具有倾向性，则调度到d机房。于是系统从d机房开启一个新的虚机交付给业务。

注：我们的机房对应运营商的可用区。

Kube-Scheduler设计模式

K8S的调度器为了实现调度亲和性，设计了过滤 - 评分 - 保留 - 确认 - 绑定的调度流程，具体代码位于pkg/scheduler/schedule_one.go中的Scheduler/findNodesThatFitPod方法。官方文档 Scheduling Framework | Kubernetes 也进行了一系列的描述。整个ScheduleFramework用于调度特定POD到特定节点上。

过滤流程

过滤流程包括PreFilter，Filter，PostFilter流程。评分流程包括

PreFilter流程用于筛选可用的节点，RunPreFilterPlugins执行了一系列筛选插件的对应方法。如：

Fit 用于计算节点CPU、内存是否有最大适配余量。因为如init-container这样的一次性任务也需要消耗CPU、GPU等资源，它需要计算满足POD全生命周期调度的资源最大值。
VolumeBinding 用于计算是否有满足条件的PV、PVC，
VolumeRestrictions 用于计算对应PV、PVC是否满足读写模式，
PodTopologySpread 用于处理亲和性和污点，过滤满足对应条件的节点
etc.

Filter用于过滤不适合POD调度的节点，findNodesThatPassFilters执行了对应方法。利用fwk.RunFilterPluginsWithNominatedPods执行。它处理了POD调度和抢占的任务，如：

Fit的Filter函数计算了所需资源的不满足项并返回，过滤掉不适合调度的节点。
NodePorts的Filter函数检查是否节点不满足端口条件，过滤掉了不适合的节点。

PostFilter只有一个插件，选择被抢占的POD，只有在所有node无法直接放置时生效。

评分流程

评分流程包括PreScore，Score流程。

其中PreScore做数据获取和预处理，如

NodeAffinity 插件的PreScore方法获取并构建了节点分数，

Score流程用于计算带权分数。如

NodeAffinity插件的Score方法计算了带权分数并返回。

评分标准化

评分标准化应被视为评分的一部分。因不同指标的范围不一致，可以采取求和平均取比例的方式，获得规范化的分数。

后续流程这里就不赘述了，为简化工作我们假设云厂商的库存是无限的。我们的设计里只用到了前面两个节点。

总结

这种设计一定程度上解决了我们资源动态调度的问题，从一个区域内选出最优机房并交付一定量的云主机。对于更加精细的优化，指标归纳和排序模式，仍需要继续摸索。

场景描述

	X{weight: 10}	Y:{weight: 100}
a	1	1
b	2	2
c {污点：禁止调度}	3	3
d {亲和性：倾向调度}	2	2

❝
表格省略了区域B的数值
❞

此时，我们首先筛选出区域A的机房，得到{a,b,c}

然后，根据权重计算，得到：

	X{weight: 10}	Y:{weight: 100}	权重（简单相加）
a	1	1	110
b	2	2	220
c {污点：禁止调度}	3	3	330
d {亲和性：倾向调度}	2	2	220

注：我们的机房对应运营商的可用区。

Kube-Scheduler设计模式

过滤流程

过滤流程包括PreFilter，Filter，PostFilter流程。评分流程包括

PreFilter流程用于筛选可用的节点，RunPreFilterPlugins执行了一系列筛选插件的对应方法。如：

Fit 用于计算节点CPU、内存是否有最大适配余量。因为如init-container这样的一次性任务也需要消耗CPU、GPU等资源，它需要计算满足POD全生命周期调度的资源最大值。
VolumeBinding 用于计算是否有满足条件的PV、PVC，
VolumeRestrictions 用于计算对应PV、PVC是否满足读写模式，
PodTopologySpread 用于处理亲和性和污点，过滤满足对应条件的节点
etc.

Filter用于过滤不适合POD调度的节点，findNodesThatPassFilters执行了对应方法。利用fwk.RunFilterPluginsWithNominatedPods执行。它处理了POD调度和抢占的任务，如：

Fit的Filter函数计算了所需资源的不满足项并返回，过滤掉不适合调度的节点。
NodePorts的Filter函数检查是否节点不满足端口条件，过滤掉了不适合的节点。

PostFilter只有一个插件，选择被抢占的POD，只有在所有node无法直接放置时生效。

评分流程

评分流程包括PreScore，Score流程。

其中PreScore做数据获取和预处理，如

NodeAffinity 插件的PreScore方法获取并构建了节点分数，

Score流程用于计算带权分数。如

NodeAffinity插件的Score方法计算了带权分数并返回。

评分标准化

评分标准化应被视为评分的一部分。因不同指标的范围不一致，可以采取求和平均取比例的方式，获得规范化的分数。

后续流程这里就不赘述了，为简化工作我们假设云厂商的库存是无限的。我们的设计里只用到了前面两个节点。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

参考Kube-Scheduler设计模式，一种机房推荐与资源调度方案

场景描述

Kube-Scheduler设计模式

过滤流程

评分流程

评分标准化

推荐调度器的设计模式

数据采集

插件实现

过滤

PreFilter

Filter

评分

PreScore

Score

总结

参考Kube-Scheduler设计模式，一种机房推荐与资源调度方案

场景描述

Kube-Scheduler设计模式

过滤流程

评分流程

评分标准化

推荐调度器的设计模式

数据采集

插件实现

过滤

PreFilter

Filter

评分

PreScore

Score

总结

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

参考Kube-Scheduler设计模式，一种机房推荐与资源调度方案

场景描述

Kube-Scheduler设计模式

过滤流程

评分流程

评分标准化

推荐调度器的设计模式

数据采集

插件实现

过滤

PreFilter

Filter

评分

PreScore

Score

总结

参考Kube-Scheduler设计模式，一种机房推荐与资源调度方案

场景描述

Kube-Scheduler设计模式

过滤流程

评分流程

评分标准化

推荐调度器的设计模式

数据采集

插件实现

过滤

PreFilter

Filter

评分

PreScore

Score

总结