集群监控大盘 监控大盘可以让您以全局的视角查看集群与工作空间的资源使用情况,通过此功能,您可从多个角度了解资源的利用情况以便更加合理地分配。 前置条件 资源限制:您已开通专属集群(专属集群需联系客户经理开通),该功能仅统计专属集群相应用量。 用户权限:账号为主账号,或者角色为IAM管理员。 功能介绍 集群监控大盘展现了专属集群下的集群资源概览、存储资源使用情况、集群整体与集群下节点的基础指标监控。进入“运维观测”>“监控大盘”菜单,上方点击“集群”Tab,在顶部栏切换需要查看的专属集群,即可查看该集群的监控,该功能仅对主账号以及IAM管理员用户开放。 集群资源概览 1. 统计说明及名词解释: 1. 该模块数据仅统计专属集群相关数据及展示专属集群监控。 2. 分配:是指分配到工作空间,即相关资源创建配额,该配额绑定工作空间的状态。被分配意味着该资源可以被任务使用:在本平台,建立专属集群后,您需要先创建配额,并在相应的工作空间里绑定配额,才可以在任务中选择配额运行任务,分配是专属集群资源可用的必要步骤。 3. 占用:占用是指被任务中的pod占用,这意味着分配的资源真正被任务使用; 4. 节点:即物理机实例,节点是集群的组成单元,每个节点对应一台物理机。 2. 各指标含义说明: 1. 分配率指标: 指标项 解释 节点健康度 健康节点数:指您所选的专属集群中,状态为Ready的节点数。在K8S集群中,Ready表示该节点健康且可接收Pod调度; 节点总数:您所选专属集群下的节点总数; 节点健康度:即健康节点数与总数的比值,反映了集群下可用节点数占比。 CPU分配率 已分配:您所选集群下,已被分配的CPU量; 总核数:您所选集群下的CPU总核数,是所有节点的CPU核数总和; CPU分配率:即已分配数与总核数的比值。 内存分配率 已分配:您所选集群下,已被分配的内存量; 总和数:您所选集群下的内存总量,是所有节点的内存量总和; CPU分配率:即已分配量与总量的比值。 显卡分配率 显卡分配数:您所选集群下,已被分配的显卡数; 显卡总数:您所选集群下的显卡总数,是所有节点的显卡数总和; 显卡分配率:即显卡分配数与显卡总数的比值。 显存分配率 显存分配量:您所选集群下,已被分配的显存量; 显存总量:您所选集群下的显存总量,是所有节点的显存量总和; 显存分配率:即显存分配量与显存总量的比值。 2. 显卡分配明细表: 字段 解释 集群名称 专属集群的名称; 显卡型号 专属集群下相应的显卡型号,比如NVIDIA L40S; 总卡数 指定专属集群下指定显卡型号的总卡数; 分配卡数 在总卡数下,被分配的显卡数; 实际占用卡数 在分配卡数下,实际被任务占用的卡数; 总显存量 指定专属集群下指定显卡型号的总显存量; 分配显存量 在总显存量下,被分配的显存量; 实际占用显存量 在分配显存量下,实际被任务占用的显存量。