前置条件
资源限制:您已开通专属集群(专属集群需联系客户经理开通),该功能仅统计专属集群相应用量。
用户权限:账号为主账号,或者角色为IAM管理员、二级管理员的子账号。
功能介绍
工作空间监控大盘展现了专属集群下的工作空间概览、具体工作空间的资源使用情况、工作空间指标监控。进入“运维观测”>“监控大盘”菜单,上方点击“工作空间”Tab,查看您相应权限下的工作空间监控,该功能仅对主账号、IAM管理员、二级管理员用户开放。
说明
1. 由于工作空间可以关联不同集群的配额,统计数值可能会跨集群,即工作空间的监控不会受顶部集群切换的影响;
2. 仅统计专属集群相关数据及展示专属集群监控;
3. 统计的数值会受到您权限的影响,此处仅统计您有权限查看的工作空间。若您是主账号或IAM管理员,此处统计的是您租户账号下所有的工作空间;若您是二级管理员,此处统计的是您自己创建及有管理权限的工作空间。
工作空间概览
统计说明及名词解释:
各指标含义说明:
指标项 | 解释 |
占用CPU核数占比 |
|
占用内存量占比 |
|
占用显卡数占比 |
|
占用显存量占比 |
|
工作空间资源使用情况及监控
选择您权限下具体的工作空间,可查看该空间下的资源使用情况。
资源使用情况:指定工作空间的占用CPU、内存量、显卡数以及显存量使用情况,具体含义可参考上述工作空间概览部分,其中显卡相关情况支持按卡类型查看,点击【按卡类型查看】可查看每类显卡的卡数及显存使用明细。
工作空间监控:此处监控以工作空间维度展示,其在真实采集值的基础上,做了空间维度的聚合,代表本空间的整体使用情况。聚合方式上,一般使用率、速率以加权平均值聚合,使用量以累加值聚合。以CPU使用量与GPU使用率为例说明指标在此处的含义:
CPU使用量(工作空间维度):当前时刻下,该工作空间被分配的所有CPU的实际使用量的总和。例如,工作空间1 CPU分配量为100核,空间1下有3个任务,每个任务分别实际使用了20核,则 CPU使用量=20+20+20=60(C);
GPU使用率(工作空间维度):当前时刻下,该工作空间被分配的所有显卡的GPU实际使用率的加权平均值。例如,工作空间A分配4张某类型的显卡,其中卡1使用率50%、卡2使用率20%、卡3和4使用率0%,则该类型下:GPU使用率=1/4*50%+1/4*20%+2/4*0%=17.5%。
各指标含义说明:
类别 | 指标 | 解释 |
CPU、内存与网络监控 | CPU使用率 | CPU在单位时间内,CPU被任务占用使用的时间占比。 默认按 加权平均值 聚合。 |
CPU使用量 | CPU 实际使用的核数。 默认按 累加值 聚合。 | |
内存使用率 | 已用内存占总内存的百分比。 默认按 加权平均值 聚合。 | |
内存使用量 | 内存实际使用量。 默认按 累加值 聚合。 | |
显卡基础指标 | 显卡使用率 | 在单位时间内,显卡被任务占用使用的时间占比。 默认按 加权平均值 聚合。 |
显存使用率 | 已用显存占总显存的百分比。 默认按 加权平均值 聚合。 | |
显存使用量 | 显存实际使用量。 默认按 累加值 聚合。 |