前提条件
确保GPU云主机已安装GPU驱动/GRID驱动。驱动安装请参见NVIDIA驱动安装指引-GPU云主机-用户指南-安装NVIDIA驱动 - 天翼云 (ctyun.cn)。
确保您已在GPU云主机上安装云监控插件,关于如何安装云监控插件,请参见安装监控Agent-弹性云主机-用户指南-监控 - 天翼云 (ctyun.cn)。
注意
目前仅部分支持安装监控Agent的地区能够支持GPU监控项,详情请参见监控Agent概览-弹性云主机-用户指南-监控 - 天翼云 (ctyun.cn)。
GPU监控项说明
1.指标类监控
| 监控项 | 监控指标名称 | 单位 | 指标说明 | 维度 |
|---|---|---|---|---|
| GPU使用率 | gpuutil_on_gpu | % | 评估负载所消耗的计算能力,非空闲状态百分比 | per-GPU |
| GPU显存使用量 | npu_chip_info_used_memory | 可选KB、MB、GB,默认展示MB 。 | 评估负载对显存的占用 | per-GPU |
| GPU显存使用率 | memusage_on_gpu | % | 评估负载对显存的占用的百分比 | per-GPU |
| GPU温度 | npu_chip_info_temperature | ℃ | 评估GPU散热情况 | per-GPU |
| GPU功耗 | npu_chip_info_power | W | 评估GPU耗电情况 | per-GPU |
| 时钟频率 | clocks_current_sm | MHz | GPU时钟频率。 仅Linux操作系统、英伟达GPU支持。 | per-GPU |
| SM活跃度 | sm_activity | 无 | SM处于活跃状态的时间占比值。 仅Linux操作系统、英伟达GPU支持。 | per-GPU |
| SM占用率 | sm_occupancy | % | SM占用线程数量的比例。 仅Linux操作系统、英伟达GPU支持。 | per-GPU |
| PCIe出方向流量 | pci_tx_bytes | Byte/s | GPU的PCI出方向流量。 仅Linux操作系统、英伟达GPU支持。 | per-GPU |
| PCIe入方向流量 | pci_rx_bytes | Byte/s | GPU的PCI入方向流量。 仅Linux操作系统、英伟达GPU支持。 | per-GPU |
| NVLink出方向流量 | nvlink_tx_bytes | Byte/s | GPU的NVLink出方向流量。 | per-GPU |
| NVLink入方向流量 | nvlink_rx_bytes | Byte/s | GPU的NVLink入方向流量。 仅Linux操作系统、英伟达GPU支持。 | per-GPU |
注意
监控Agent采集 SM 占用率、SM 活跃度、PCIe 入 / 出流量、NVLink 入 / 出流量等 GPU 监控指标,必须提前在GPU云主机内正确安装 GPU 驱动程序、DCGMI 工具和 CUDA 环境。
2.事件类监控
| 监控项 | 事件说明 | 维度 |
|---|---|---|
| GPU掉卡 | 通过对比 lspci 识别的显卡数量与 nvidia-smi 识别的可用显卡数量,不一致时判定为掉卡并推送系统事件。 | GPU云主机 |
| GPU XID 异常 | 通过监控日志捕获报错 XID 码,检测到“NVRM.*Xid” 时判定为 GPU XID 异常并推送系统事件。 | GPU云主机 |
注意
1. 仅NVIDIA GPU 支持GPU掉卡、GPU XID 异常事件监控 。
2. 仅在GPU实例正确安装驱动且驱动正常时可准确获取GPU事件。
3. GPU事件类监控支持的资源池如下:长沙42。
通过弹性云主机控制台查看GPU监控项
登录控制中心。
单击控制中心顶部的
,选择“地域”。选择“计算 > 弹性云主机”。
在弹性云主机列表页点击某一GPU云主机的主机名称进入主机详情页。
点击“监控”tab,选择“GPU使用率”或"显存使用率"即可查看该台GPU云主机下全部显卡的这两个GPU监控项。
通过云监控控制台查看GPU监控项
目前有两种方式可以进入云监控控制台查看GPU监控项,具体如下:
方式一
登录控制中心。
单击控制中心顶部的
,选择“地域”。单击左侧导航栏“产品服务列表”,选择“计算 > 弹性云主机”。
在弹性云主机列表页点击某一GPU云主机的主机名称进入主机详情页。
点击“监控”tab,点击"查看更多监控指标详情"跳转至云主机监控控制台。
点击“操作系统监控>GPU”,查看全量的GPU监控项。若该台GPU云主机挂载了多块显卡,则可在下拉框中选择对应的GPU查看该GPU的GPU使用率、GPU显存使用量、GPU显存使用率、GPU温度、GPU功耗。
方式二
登录控制中心。
单击控制中心顶部的
,选择“地域”。选择“管理与部署> 云监控服务”。
单击"主机监控>云主机监控",进入云主机监控列表页。
选中所要查看的GPU云主机,点击“操作>查看监控图标”,进入云主机监控详情页。
若该台GPU云主机挂载了多块显卡,则可在下拉框中选择对应的GPU查看该GPU的GPU使用率、GPU显存使用量、GPU显存使用率、GPU温度、GPU功耗。
注意
- 如未安装驱动则GPU监控项将为空,请您安装驱动。
- 目前图形加速基础型GPU云主机的GPU温度、GPU功率为空,无法提供监控告警。