物理机支持的事件列表 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 GPU SRAM存在 Uncorrectable ECC告警 SRAMUncorrectableEccError 重要 GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 如果业务受损,请提交工单。 可能GPU硬件问题导致SRAM故障,导致业务异常退出 主机重启 osReboot 重要 物理机实例重启。 包括: 1. 在管理控制台进行重启操作 2. 通过API接口下发重启指令 1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 业务中断 异常重启 serverReboot 重要 物理机实例异常重启。 包括: 1. 操作系统异常导致重启 2. 主机硬件故障导致重启 1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 业务中断 主机关机 osShutdown 重要 物理机实例关机。 包括: 1. 在管理控制台进行关机操作 2. 通过API接口下发关机指令 1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 业务中断 异常关机 serverShutdown 重要 物理机实例异常关机。 包括: 1. 主机异常下电 2. 主机硬件故障导致关机 1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 业务中断 网络中断 linkDown 重要 物理机网络中断。 包括: 1. 主机异常关机、重启 2. 交换机故障引起的网络中断 3. 网关节点故障引起的中断 1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 业务中断 PCIE异常 pcieError 重要 物理机PCIe设备硬件故障。 包括: 1. 主板故障 2. PCIe设备故障 1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 影响网络或硬盘读写业务 硬盘故障 diskError 重要 物理机磁盘故障。 包括: 1. 硬盘背板故障 2. 硬盘本身故障 1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 影响数据读写业务或主机无法启动 云存储连接异常 storageError 重要 物理机云硬盘链接异常。 包括: 1. SDI卡故障 2. 远端存储故障 1. 业务应用做成高可用。 2. 主机恢复后,确认业务是否自动恢复。 影响数据读写业务或主机无法启动 GPU存在infoROM告警 gpuInfoROMAlarm 重要 GPU可能存在硬件问题,导致驱动读取不到inforom信息。 业务可以继续使用该GPU卡,不敏感业务可以继续使用,敏感业务请提交工单处理。 对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损。 GPU发生double bit ECC告警 doubleBitEccError 重要 GPU硬件存在double bit ECC故障。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 GPU隔离页过多告警 gpuTooManyRetiredPagesAlarm 重要 GPU硬件存在过多ECC隔离页。 如果业务受损,请提交工单。 GPU硬件存在过多ECC故障,可能频繁影响业务运行。 GPU A100 硬件发生ECC告警 gpuA100EccAlarm 重要 GPU卡出现ECC硬件故障。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 GPU ECC内存页隔离失败告警 eccPageRetirementRecordingFailure 重要 GPU硬件存在ECC故障,驱动自动隔离这些页时失败。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。 GPU ECC页隔离告警 eccPageRetirementRecordingEvent 一般 存在ECC硬件错误,发生内存页自动隔离。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 一般随ECC故障告警出现,单独出现不影响业务。 GPU single bit ECC过多告警 highSingleBitEccErrorRate 重要 ECC硬件存在过高ECC single bit错误。 如果业务受损停止,则重启业务恢复。 如果业务无法启动,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 single bit的错误能够自动恢复,一般不影响GPU相关应用程序。 GPU驱动掉卡告警 gpuDriverLinkFailureAlarm 重要 GPU链路正常,NVIDIA驱动找不到GPU硬件。 建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复,请提交工单。 一般驱动问题导致找不到对应位置的GPU。 GPU卡链路故障告警 gpuPcieLinkFailureAlarm 重要 GPU链路异常,通过lspci无法查看GPU硬件信息。 如果业务受损,请提交工单。 硬件问题导致GPU卡链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU显存页告警 gpuMemoryPageFault 重要 GPU显存页发生故障,故障可能由应用、驱动或硬件引起。 如果业务受损,请提交工单。 可能GPU硬件问题导致显存故障,导致业务异常退出 GPU图像引擎异常告警 graphicsEngineException 重要 GPU图像引擎发生故障,可能由应用、驱动或硬件引起。 如果业务受损,请提交工单。 可能GPU硬件问题导致图像引擎故障,导致业务异常退出。 GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降 GPU NVLINK链路错误告警 nvlinkError 重要 NVLINK的链路出现硬件故障。 如果业务受损,请提交工单。 NVLINK链路故障,影响业务使用GPU nvlink能力。 nvidiasmi命令卡住 nvidiaSmiHangEvent 重要 nvidiasmi命令超时,该命令可能卡住 如果业务受损,请提交工单。 可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。