弹性云主机ECS支持的事件列表 弹性云主机 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 : 删除虚拟机 deleteServer 重要 删除云服务器。 包括: 1. 在管理控制台进行删除操作。 2. 通过API接口下发删除指令。 确认删除操作是否为主动执行。 业务中断。 重启虚拟机 rebootServer 次要 云服务器重启。 包括: 1. 在管理控制台进行重启操作。 2. 通过API接口下发重启指令。 1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 云主机开机后,确认业务是否自动恢复。 业务中断。 关闭虚拟机 stopServer 次要 云服务器关机。 包括: 1. 在管理控制台进行关机操作。 2. 通过API接口下发关机指令。 1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 云主机开机后,确认业务是否自动恢复。 业务中断。 删除网卡 deleteNic 重要 云服务器删除网卡。 包括: 1. 在管理控制台删除网卡。 2. 通过API接口下发删除网卡指令。 1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 删除网卡后,确认业务是否自动恢复。 网卡被删除,存在业务中断的可能。 变更规格 resizeServer 次要 云服务器规格变更。 包括: 1. 在管理控制台进行变更规格。 2. 通过API接口下发变更规格指令。 1. 确认操作是否为主动执行。 2. 业务应用做成高可用。 3. 变更规格后,确认业务是否自动恢复。 业务中断。 因硬件故障触发重启 startAutoRecovery 重要 弹性云主机所在的主机出现故障时,系统会自动将弹性云主机迁移至正常的物理机, 迁移过程中系统会自动重启云主机。 等待恢复成功,观察业务是否受到影响。 业务存在中断的可能。 因硬件故障重启已完成 endAutoRecovery 重要 当自动迁移完成后,弹性云主机已恢复正常。 当收到“恢复成功”时,云服务器已正常工作,可继续使用。 业务恢复正常。 恢复超时(后台处理中) faultAutoRecovery 重要 迁移弹性云主机至正常的物理机操作超时。 迁移业务至其他云服务器。 业务中断。 开机失败 faultPowerOn 重要 云主机开机失败。 重试开机,若仍开机失败,联系运维人员处理。 云服务器无法开机。 GPU链路故障 GPULinkFault 紧急 弹性云主机所在的主机上GPU卡故障。 包括: 1. GPU卡故障。 2. GPU卡故障恢复中。 业务应用做成高可用。GPU卡故障恢复后,确认业务是否自动恢复。 业务中断。 主机进程异常导致虚拟机故障 VMFaultsByHostProcessExceptions 紧急 云服务器所在宿主机服务进程异常,导致云服务器故障。 联系运维人员处理 云服务器故障。 GuestOS系统层重启告警 RestartGuestOS 一般 GuestOS内部重启。 联系运维人员处理。 在系统重启场景下,可能导致业务中断。 实例计划规格变更等待执行 instanceresizescheduled 重要 实例在计划时间规格变更,任务等待执行。 确认执行窗口对业务的影响。 实例等待执行规格变更操作。 实例计划迁移等待执行 instancemigratescheduled 重要 由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。 确认执行窗口对业务的影响。 实例等待执行迁移操作。 实例计划停止等待执行 instancestopscheduled 重要 由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。 确认执行窗口对业务的影响。 实例中止等待。 实例计划重启等待执行 instancerebootscheduled 重要 由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。 确认执行窗口对业务的影响。 实例等待执行重启。 实例计划重新部署等待执行 instanceredeployscheduled 重要 由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。 确认执行窗口对业务的影响。 实例等待执行重部署。 GPU SRAM存在 Uncorrectable ECC告警 SRAMUncorrectableEccError 重要 GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 如果业务受损,请提交工单。 可能GPU硬件问题导致SRAM故障,导致业务异常退出。 GPU存在infoROM告警 gpuInfoROMAlarm 重要 GPU可能存在硬件问题,导致驱动读取不到inforom信息。 非敏感业务可以继续使用该GPU卡,敏感业务请提交工单。 对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损。 GPU发生double bit ECC告警 doubleBitEccError 重要 GPU硬件存在double bit ECC故障。 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 GPU隔离页过多告警 gpuTooManyRetiredPagesAlarm 重要 GPU硬件存在过多ECC隔离页。 如果业务受损,请提交工单。 GPU硬件存在过多ECC故障,可能频繁影响业务正常运行。 GPU A100 硬件发生ECC告警 gpuA100EccAlarm 重要 GPU卡出现ECC硬件故障。 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 GPU ECC内存页隔离失败告警 eccPageRetirementRecordingFailure 重要 GPU硬件存在ECC故障,驱动自动隔离内存页时失败。 如果业务受损,请提交工单。 可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。 GPU ECC页隔离告警 eccPageRetirementRecordingEvent 一般 存在ECC硬件错误,发生内存页自动隔离。 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 一般随ECC故障告警出现,单独出现不影响业务。 GPU single bit ECC过多告警 highSingleBitEccErrorRate 重要 ECC硬件存在过高ECC single bit错误。 如果业务受损停止,建议尝试重启虚拟机恢复业务。 如果业务仍然无法恢复,请提交工单。 single bit的错误能够自动恢复,一般不影响GPU相关应用程序。 GPU驱动掉卡告警 gpuDriverLinkFailureAlarm 重要 GPU链路正常,NVIDIA驱动找不到GPU硬件 建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复,请提交工单。 一般驱动问题导致找不到对应位置的GPU。 GPU卡链路故障告警 gpuPcieLinkFailureAlarm 重要 GPU链路异常,通过lspci查看GPU硬件出现故障。 如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU显存页告警 gpuMemoryPageFault 重要 GPU内存页发生故障,故障可能由应用、驱动或硬件引起 如果业务受损,请提交工单。 可能GPU硬件问题导致显存故障,导致业务异常退出。 GPU图像引擎异常告警 graphicsEngineException 重要 GPU图像引擎发生故障,可能由应用、驱动或硬件引起。 如果业务受损,请提交工单。 可能GPU硬件问题导致图像引擎故障,导致业务异常退出。 GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降。 GPU NVLINK链路错误告警 nvlinkError 重要 NVLINK的链路出现硬件故障 如果业务受损,请提交工单。 NVLINK链路故障,影响业务使用GPU NVLINK能力。 nvidiasmi命令卡住 nvidiaSmiHangEvent 重要 nvidiasmi命令超时,该命令可能卡住 如果业务受损,请提交工单。 可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 开始热迁移 liveMigrationStarted 重要 弹性云主机所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。 等待虚拟机迁移成功,状态恢复正常。 实例热迁移开始。 结束热迁移 liveMigrationCompleted 重要 热迁移已经结束,弹性云主机已恢复正常。 确认业务是否受到影响。 实例热迁移结束。 热迁移失败 liveMigrationFailed 重要 弹性云主机热迁移出现问题,未热迁移成功。 确认应用集群业务是否受损。 实例热迁移失败。 宿主机存在宕机风险 hostMayCrash 重要 弹性云主机所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。 确认应用集群业务是否受损。 实例有重启风险。 说明 自动恢复:弹性云主机所在的硬件出现故障时,系统会自动将弹性云主机迁移至正常的物理机,该过程会导致云主机重启。