弹性云主机
事件名称 |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
开始自动恢复 |
重要 |
弹性云主机所在的主机出现故障时,系统会自动将弹性云主机迁移至正常的物理机,迁移过程中系统会自动重启云主机。 |
等待自动恢复事件结束,观察业务是否受到影响。 |
业务存在中断的可能。 |
结束自动恢复 |
重要 |
当自动迁移完成后,弹性云主机已恢复正常。 |
当收到“结束自动恢复”时,云主机已正常工作,可继续使用。 |
业务恢复正常。 |
自动恢复超时(后台处理中) |
重要 |
迁移弹性云主机至正常的物理机操作超时。 |
迁移业务至其他云主机。 |
业务中断。 |
GPU链路故障 |
紧急 |
弹性云主机所在的主机上GPU卡故障。包括:GPU卡故障。GPU卡故障恢复中。 |
业务应用做成高可用。GPU卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
FPGA链路故障 |
紧急 |
弹性云主机所在的主机上FPGA卡故障。包括:FPGA卡故障。FPGA卡故障恢复中。 |
业务应用做成高可用。FPGA卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
运行状态异常 |
重要 |
弹性云主机故障或网卡异常导致运行状态异常。 |
业务应用做成高可用。云主机恢复后,确认业务是否自动恢复。 |
业务中断。 |
运行状态异常已恢复 |
重要 |
弹性云主机运行状态恢复正常。 |
等待运行状态恢复正常,观察业务是否收到影响。 |
业务恢复正常。 |
删除虚拟机 |
重要 |
删除云主机。包括:在管理控制台进行删除操作。通过API接口下发删除指令。 |
确认删除操作是否为主动执行。 |
业务中断。 |
重启虚拟机 |
次要 |
云主机重启。包括:在管理控制台进行重启操作。通过API接口下发重启指令。 |
确认操作是否为主动执行。业务应用做成高可用。云主机开机后,确认业务是否自动恢复。 |
业务中断。 |
关闭虚拟机 |
次要 |
云主机关机。包括:在管理控制台进行关机操作。通过API接口下发关机指令。 |
确认操作是否为主动执行。业务应用做成高可用。云主机开机后,确认业务是否自动恢复。 |
业务中断。 |
删除网卡 |
重要 |
云主机删除网卡。包括:在管理控制台删除网卡。通过API接口下发删除网卡指令。 |
确认操作是否为主动执行。业务应用做成高可用。删除网卡后,确认业务是否自动恢复。 |
网卡被删除,存在业务中断的可能。 |
变更规格 |
次要 |
云主机规格变更。包括:在管理控制台进行变更规格。通过API接口下发变更规格指令。 |
确认操作是否为主动执行。业务应用做成高可用。变更规格后,确认业务是否自动恢复。 |
业务中断。 |
GuestOS系统层重启告警 |
一般 |
GuestOS内部重启。 |
联系运维人员处理。 |
在系统重启场景下,可能导致业务中断。 |
本地盘故障 |
重要 |
云主机所使用的本地盘发生故障。 |
联系运维人员处理。 |
本地盘不可用。 |
主机进程异常导致虚拟机故障 |
紧急 |
云主机所在宿主机服务进程异常,导致云主机故障。 |
联系运维人员处理 |
云主机故障。 |
开机失败 |
重要 |
云主机开机失败。 |
重试开机,若仍开机失败,联系运维人员处理。 |
云主机无法开机。 |
说明
自动恢复:弹性云主机所在的硬件出现故障时,系统会自动将弹性云主机迁移至正常的物理机,该过程会导致云主机重启。
弹性公网IP
事件名称 |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
EIP带宽超限事件 |
重要 |
当前使用带宽已超过购买的带宽,可能会导致网络变慢或丢包发生。其中,该事件取值为周期内的最大值,而EIP的出入网带宽指标数据,取值为周期时间点的值。其中:“egressDropBandwidth”为本周期内出云丢弃带宽值(Byte),“egressAcceptBandwidth”为本周期内出云通过带宽值(Byte),“egressMaxBandwidthPerSec”为本周期内出云带宽峰值(Byte/s),“ingressAcceptBandwidth”为本周期内入云通过带宽值(Byte),“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值(Byte/s),“ingressDropBandwidth”为本周期内入云丢弃带宽值(Byte)。 |
检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。 |
网络变慢或丢包发生 |
释放EIP |
次要 |
EIP资源被删除。 |
检查是否误操作删除资源。 |
无法访问公网 |
EIP封堵 |
紧急 |
带宽超过5GB就会封堵,相当于把流量直接丢弃。带宽严重超限或受到攻击,一般是受到了DDoS攻击。 |
更换EIP,避免业务受到影响。同时查看事件中的封堵原因,进行相应处理。 |
业务受影响 |
EIP解封 |
紧急 |
EIP封堵已被解封。 |
换回原EIP,将被解封EIP重新使用,避免资源浪费。 |
无 |
关系型数据库--资源异常事件
事件名称 |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
创建实例业务失败 |
重要 |
创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。 |
检查磁盘个数、配额大小,释放资源后重新创建。 |
无法创建数据库实例。 |
实例全量备份失败 |
重要 |
单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。 |
重新执行一次手工备份。 |
备份失败。 |
主备切换异常 |
重要 |
主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。 |
检查应用和数据库之间的连接是否重新建立了连接。 |
无 |
复制状态异常 |
重要 |
出现”复制状态异常“事件通常有两种情况:1、主备之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。2、主备间的网络中断,导致主备复制异常。 |
提交工单。 |
但不会导致原来单实例的读写中断,客户的应用是无感知的。 |
复制状态异常已恢复 |
重要 |
即复制时延已回到正常范围内,或者主备之间的网络通信恢复。 |
不需要处理。 |
无 |
实例运行状态异常 |
重要 |
由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。 |
检查是否有设置自动备份策略,并且提交工单。 |
可能导致数据库服务不可用。 |
实例运行状态异常已恢复 |
重要 |
针对灾难性的故障,RDS有高可用工具会自动进行备机重建,重建完成之后即会上报本事件。 |
不需要处理。 |
无 |
单实例转主备实例失败 |
重要 |
创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。 |
提交工单。 |
“单实例转主备实例失败”不会导致原来单实例的读写中断,客户的应用是无感知的。 |
数据库进程重新启动 |
重要 |
一般是内存不足、负载过高导致数据库进程停止 |
通过云监控的数据,查看是否有内存飙升、cpu长期过高、磁盘满使用率不足等的情况,可以选择提升CPU内存规格或者优化业务逻辑 |
进程挂掉的时候,业务中断。RDS服务会自动拉起进程,尝试恢复业务。 |
关系型数据库--操作类事件
事件名称 |
事件级别 |
重置数据库管理员密码 |
重要 |
集群扩容等操作 |
重要 |
删除集群下的实例 |
次要 |
修改备份策略 |
次要 |
修改参数组 |
次要 |
删除参数组 |
次要 |
重置参数组 |
次要 |
修改数据库端口号 |
重要 |
实例主备切换 |
重要 |
文档数据库服务
事件名称 |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
创建实例业务失败 |
重要 |
创建文档数据库实例失败产生的事件,一般是由于磁盘个数、配额不足,底层资源耗尽导致。 |
检查磁盘个数、配额大小是否满足需求,并考虑释放资源后重新创建实例。 |
无法创建数据库实例。 |
复制状态异常 |
重要 |
出现“复制状态异常”事件通常有两种情况:1、主备之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务低峰期,备节点数据会逐渐追上主节点。2、主备间的网络中断,导致主备复制异常。 |
提交工单。 |
不会导致原来实例的读写中断,客户的应用是无感知的。 |
复制状态异常已恢复 |
重要 |
复制时延已回到正常范围内,或者主备之间的网络通信恢复。 |
不需要处理。 |
无 |
实例运行状态异常 |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
实例运行状态异常已恢复 |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
节点运行状态异常 |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
节点运行状态异常已恢复 |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
实例主备切换 |
重要 |
在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 |
不需要处理。 |
无 |
数据盘空间不足 |
重要 |
数据盘空间不足,产生此告警。 |
请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 |
实例被设为只读模式,数据无法写入。 |
数据盘空间已扩容并恢复可写 |
重要 |
数据盘空间已扩容并恢复可写,产生此事件。 |
不需要处理。 |
无 |
虚拟私有云
事件名称 |
事件级别 |
删除VPC |
重要 |
修改VPC |
次要 |
删除Subnet |
次要 |
修改Subnet |
次要 |
修改带宽 |
次要 |
删除VPN |
重要 |
修改VPN |
次要 |
统一身份认证服务
事件名称 |
事件级别 |
用户登录 |
次要 |
用户登出 |
次要 |
登录重置密码 |
重要 |
创建用户 |
次要 |
删除用户 |
重要 |
修改用户 |
次要 |
创建用户组 |
次要 |
删除用户组 |
重要 |
修改用户组 |
次要 |
创建idp |
次要 |
删除idp |
重要 |
修改idp |
次要 |
更新metadata |
次要 |
更新帐号登录策略 |
重要 |
创建AK/SK |
重要 |
删除AK/SK |
重要 |
创建project |
次要 |
更新project |
次要 |
冻结项目 |
重要 |