GPU监控 本文为您介绍如何查看GPU相关的监控项。 前提条件 确保GPU云主机已安装GPU驱动/GRID驱动。驱动安装请参见NVIDIA驱动安装指引GPU云主机用户指南安装NVIDIA驱动 天翼云 (ctyun.cn)。 确保您已在GPU云主机上安装云监控插件,关于如何安装云监控插件,请参见安装监控Agent弹性云主机用户指南监控 天翼云 (ctyun.cn)。 注意 目前仅部分支持安装监控Agent的地区能够支持GPU监控项,详情请参见监控Agent概览弹性云主机用户指南监控 天翼云 (ctyun.cn)。 GPU监控项说明 1.指标类监控 监控项 单位 指标说明 维度 GPU使用率 % 评估负载所消耗的计算能力,非空闲状态百分比 perGPU GPU显存使用量 可选KB、MB、GB,默认展示MB 。 评估负载对显存的占用 perGPU GPU显存使用率 % 评估负载对显存的占用的百分比 perGPU GPU温度 ℃ 评估GPU散热情况 perGPU GPU功耗 W 评估GPU耗电情况 perGPU 时钟频率 MHz GPU时钟频率。 仅Linux操作系统、英伟达GPU支持。 perGPU SM活跃度 无 SM处于活跃状态的时间占比值。 仅Linux操作系统、英伟达GPU支持。 perGPU SM占用率 % SM占用线程数量的比例。 仅Linux操作系统、英伟达GPU支持。 perGPU PCIe出方向流量 Byte/s GPU的PCI出方向流量。 仅Linux操作系统、英伟达GPU支持。 perGPU PCIe入方向流量 Byte/s GPU的PCI入方向流量。 仅Linux操作系统、英伟达GPU支持。 perGPU NVLink出方向流量 Byte/s GPU的NVLink出方向流量。 仅Linux操作系统、英伟达GPU支持。 perGPU NVLink入方向流量 Byte/s GPU的NVLink入方向流量。 仅Linux操作系统、英伟达GPU支持。 perGPU 注意 监控Agent采集 SM 占用率、SM 活跃度、PCIe 入 / 出流量、NVLink 入 / 出流量等 GPU 监控指标,必须提前在GPU云主机内正确安装 GPU 驱动程序、DCGMI 工具和 CUDA 环境。 2.事件类监控 监控项 事件说明 维度 GPU掉卡 通过对比 lspci 识别的显卡数量与 nvidiasmi 识别的可用显卡数量,不一致时判定为掉卡并推送系统事件。 GPU云主机 GPU XID 异常 通过监控日志捕获报错 XID 码,检测到“NVRM.Xid” 时判定为 GPU XID 异常并推送系统事件。 GPU云主机 注意 1. 仅NVIDIA GPU 支持GPU掉卡、GPU XID 异常事件监控 。 2. 仅在GPU实例正确安装驱动且驱动正常时可准确获取GPU事件。 3. GPU事件类监控支持的资源池如下:长沙42。