前置条件
资源限制:您已开通专属集群(专属集群需联系客户经理开通),该功能仅统计专属集群相应用量。
用户权限:账号为主账号,或者角色为IAM管理员。
功能介绍
集群监控大盘展现了专属集群下的集群资源概览、存储资源使用情况、集群整体与集群下节点的基础指标监控。进入“运维观测”>“监控大盘”菜单,上方点击“集群”Tab,在顶部栏切换需要查看的专属集群,即可查看该集群的监控,该功能仅对主账号以及IAM管理员用户开放。
集群资源概览
统计说明及名词解释:
各指标含义说明:
分配率指标:
指标项
解释
节点健康度
健康节点数:指您所选的专属集群中,状态为Ready的节点数。在K8S集群中,Ready表示该节点健康且可接收Pod调度;
节点总数:您所选专属集群下的节点总数;
节点健康度:即健康节点数与总数的比值,反映了集群下可用节点数占比。
CPU分配率
已分配:您所选集群下,已被分配的CPU量;
总核数:您所选集群下的CPU总核数,是所有节点的CPU核数总和;
CPU分配率:即已分配数与总核数的比值。
内存分配率
已分配:您所选集群下,已被分配的内存量;
总和数:您所选集群下的内存总量,是所有节点的内存量总和;
CPU分配率:即已分配量与总量的比值。
显卡分配率
显卡分配数:您所选集群下,已被分配的显卡数;
显卡总数:您所选集群下的显卡总数,是所有节点的显卡数总和;
显卡分配率:即显卡分配数与显卡总数的比值。
显存分配率
显存分配量:您所选集群下,已被分配的显存量;
显存总量:您所选集群下的显存总量,是所有节点的显存量总和;
显存分配率:即显存分配量与显存总量的比值。
显卡分配明细表:
字段
解释
集群名称
专属集群的名称;
显卡型号
专属集群下相应的显卡型号,比如NVIDIA L40S;
总卡数
指定专属集群下指定显卡型号的总卡数;
分配卡数
在总卡数下,被分配的显卡数;
实际占用卡数
在分配卡数下,实际被任务占用的卡数;
总显存量
指定专属集群下指定显卡型号的总显存量;
分配显存量
在总显存量下,被分配的显存量;
实际占用显存量
在分配显存量下,实际被任务占用的显存量。
存储资源使用情况
统计说明及名词解释:平台主要支持两类存储-高性价比的ZOS、高性能的HPFS,关于两类存储的解释,可见基础数据集章节。
指标含义:
类别 | 指标 | 解释 |
账号自有ZOS | 已使用量 | 您租户账号下的同资源池下已开通的对象存储使用量; |
平台共享ZOS | 剩余可用 | 您租户账号在本平台共享存储的对象存储剩余可用量; |
已使用量 | 您租户账号在本平台共享存储的对象存储使用量; | |
账号自有HPFS | 已购买量 | 您租户账号下同资源池购买的HPFS总量; |
已使用量 | 您租户账号下同资源池的HPFS已使用量; | |
平台共享HPFS | 剩余可用 | 您租户账号在本集群的HPFS剩余可用量; |
已使用量 | 您租户账号在本集群的HPFS使用量。 |
集群资源监控
下拉至集群资源监控模块,点击集群资源监控tab,可查看相应的资源监控。集群维度的资源监控,是所有节点相应指标的聚合值,平台跟据各指标项的具体含义,选取了最能体现资源组整体使用情况的统计方式,例如平均值、最大值等。通过此统计方式,您可以了解该集群的整体使用情况。
图像展示:
放大与明细:点击指标右侧“>”箭头,可展开指标大图,大图展示对图像上点的统计细项,包括最大值、最小值、平均值、中位数、75分位数;
图例:点击图例,可以对线段进行展示/隐藏;
时间轴:滑动图像下方时间轴,可以在已选定时间的基础上,查看更小范围的监控。
指标含义:
类别 | 指标 | 解释 |
CPU、内存与网络监控 | CPU负载 | 一段时间内系统等待处理的工作量,包括了正在使用 CPU 的进程和等待 CPU 的进程。 默认按 平均值(avg) 聚合。 |
CPU使用率 | CPU在单位时间内,CPU被任务占用使用的时间占比。 默认按 平均值(avg) 聚合。 | |
CPU使用量 | CPU 实际使用的核数。 默认按 累加值(sum) 聚合。 | |
内存使用率 | 已用内存占总内存的百分比。 默认按 平均值(avg) 聚合。 | |
内存使用量 | 内存实际使用量。 默认按 累加值(sum) 聚合。 | |
普通网络吞吐 | 传统以太网的实际数据传输速率,即单位时间内实际传输的数据量。 默认按 平均值(avg) 聚合。 | |
本地磁盘使用率 | 本地磁盘的使用率。 默认按 平均值(avg) 聚合。 | |
显卡基础指标 | 显卡使用率 | 在单位时间内,显卡被任务占用使用的时间占比。 默认按 平均值(avg) 聚合。 |
显存使用率 | 已用显存占总显存的百分比。 默认按 平均值(avg) 聚合。 | |
显存使用量 | 显存实际使用量。 默认按 累加值(sum) 聚合。 |
节点资源监控
切换到节点资源监控tab,选择集群下相应的节点,可查看节点资源监控。
节点指标及含义:
类别 | 指标 | 解释 |
CPU、内存与网络监控 | CPU负载 | 一段时间内系统等待处理的工作量,包括了正在使用 CPU 的进程和等待 CPU 的进程。 |
CPU使用率 | CPU在单位时间内,CPU被任务占用使用的时间占比。 | |
CPU使用量 | CPU 实际使用的核数。 | |
内存使用率 | 已用内存占总内存的百分比。 | |
内存使用量 | 内存实际使用量。 | |
普通网络吞吐 | 传统以太网的实际数据传输速率,即单位时间内实际传输的数据量。 | |
本地磁盘使用率 | 节点本地磁盘的使用率。
| |
本地磁盘读写速率 | 节点本地磁盘的读写速率。 | |
显卡基础指标 | GPU/NPU使用率 | 在单位时间内,显卡被任务占用使用的时间占比。 |
GPU/NPU显存使用率 | 已用显存占总显存的百分比。 | |
GPU/NPU显存使用量 | 显存实际使用量。 | |
GPU/NPU卡温度 | 显卡温度。 | |
GPU/NPU功耗 | 显卡功耗。 | |
NPU卡健康状态
| 每张卡的NPU芯片健康状态。 取值范围:{0,1} 1:表示在过去一段时间间隔内芯片处于健康状态; 0:表示在过去一段时间间隔内出现了不健康状态。 |