事件监控支持的事件说明 本节是关于事件监控支持的事件说明相关内容。 表 资源异常事件 事件来源 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 RDS 创建实例业务失败 createInstanceFailed 重要 创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。 检查磁盘个数、配额大小,释放资源后重新创建。 无法创建数据库实例。 RDS 跨区域备份同步异常 crossRegionBackupSyncFailed 次要 一般是由于底层网络和复制资源出现瓶颈等原因导致。 如果事件一直不停上报,提交工单调整底层资源分配。 跨区域备份同步异常,目标区域不能使用备份文件进行恢复。 RDS 实例全量备份失败 fullBackupFailed 重要 单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。 重新执行一次手工备份。 备份失败。 RDS 主备切换异常 activeStandBySwitchFailed 重要 主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。 检查应用和数据库之间的连接是否重新建立了连接。 无 RDS 复制状态异常 abnormalReplicationStatus 重要 出现”复制状态异常“事件通常有两种情况: 1、主备之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主备间的网络中断,导致主备复制异常。 提交工单。 但不会导致原来单实例的读写中断,客户的应用是无感知的。 RDS 复制状态异常已恢复 replicationStatusRecovered 重要 即复制时延已回到正常范围内,或者主备之间的网络通信恢复。 不需要处理。 无 RDS 实例运行状态异常 faultyDBInstance 重要 由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。 检查是否有设置自动备份策略,并且提交工单。 可能导致数据库服务不可用。 RDS 实例运行状态异常已恢复 DBInstanceRecovered 重要 针对灾难性的故障,RDS有高可用工具会自动进行备机重建,重建完成之后即会上报本事件。 不需要处理。 无 RDS 单实例转主备实例失败 singleToHaFailed 重要 创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。 提交工单。 “单实例转主备实例失败”不会导致原来单实例的读写中断,客户的应用是无感知的。 RDS 数据库进程重新启动 DatabaseProcessRestarted 重要 一般是内存不足、负载过高导致数据库进程停止 通过云监控的数据,查看是否有内存飙升、cpu长期过高、磁盘满使用率不足等的情况,可以选择提升CPU内存规格或者优化业务逻辑 进程挂掉的时候,业务中断。RDS服务会自动拉起进程,尝试恢复业务。 RDS 实例磁盘满 instanceDiskFull 重要 一般是由于数据空间占用过大导致。 对实例进行扩容操作。 实例由于磁盘空间满将会变成只读实例,数据库不可进行写入操作。 RDS 实例磁盘满恢复 instanceDiskFullRecovered 重要 实例磁盘状态恢复正常。 不需要处理。 实例解除只读状态,恢复写操作。 RDS MySQL实例连接数满 mysqlConnectionsFull 重要 由于实例业务量冲高,导致连接数满,无法建立新连接。 调整连接数到合理值。 通过限流等方式降低负载。 变更到更高规格,扩大连接数上限。 实例无法建立新连接。 RDS MySQL实例连接数满已恢复 mysqlConnectionsFullRecovered 重要 实例连接数已恢复正常 实例连接数已恢复正常,请确认业务是否正常运行。 实例连接数已恢复正常。 RDS MySQL负载高导致新建连接异常 highLoadInstanceConnectionsAbnormal 重要 由于CPU、内存、磁盘、网络带宽等资源不足,导致无法建立新连接或者建立的新连接异常 增加系统资源,例如增加CPU、内存、磁盘等。 调整MySQL配置,例如增加连接池大小、调整缓存大小等。 根据实际运行状态和业务需求,选择异常进程执行kill会话,结束会话,使数据库恢复正常。 实例新建连接异常。 RDS MySQL负载高导致新建连接异常已恢复 highLoadInstanceConnectionsAbnormalRevocered 重要 负载高导致实例新建连接异常已恢复 负载高导致实例新建连接异常已恢复,请确认业务是否正常运行。 负载高导致实例新建连接异常已恢复。 RDS kafka连接失败 kafkaConnectionFailed 重要 一般是由于网络波动或kafka服务端出现异常等原因导致。 检查网络状况和kafka服务端状态。 审计日志无法发送到kafka服务端。 数据库代理 数据库安全组未放通数据库代理地址 proxyconnectionfailurecausesecuritygroup 重要 一般是由于数据库安全组未放通代理地址导致。 修改数据库所使用安全组规则放通代理地址。 通过代理访问的业务流量中断。 数据库代理 数据库代理与数据库连通性异常 proxyconnectionfailuretodb 重要 数据库代理与主库建立新连接失败,与只读库可能存在建立新连接失败。一般是由于数据库/数据库代理压力过大,或代理与数据库间网络异常。 观察数据库与数据库代理压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理。 通过代理访问的业务流量中断。 数据库代理 数据库代理与数据库只读库连通性异常 proxyconnectionfailuretoreplica 一般 数据库代理与只读库建立新连接失败。一般是由于只读库压力过大,或代理与只读库间网络异常。 观察只读库压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理。 通过代理访问的业务读流量部分中断。 表 操作类事件 事件来源 事件名称 事件ID 事件级别 事件说明 RDS 重置数据库管理员密码 resetPassword 重要 重置数据库管理员密码 RDS 集群扩容等操作 instanceAction 重要 磁盘扩容、规格变更 RDS 删除集群下的实例 deleteInstance 次要 删除集群下的实例 RDS 修改备份策略 setBackupPolicy 次要 修改备份策略 RDS 修改参数组 updateParameterGroup 次要 修改参数组 RDS 删除参数组 deleteParameterGroup 次要 删除参数组 RDS 重置参数组 resetParameterGroup 次要 重置参数组 RDS 修改数据库端口号 changeInstancePort 重要 修改数据库端口号 RDS 实例主备切换 PrimaryStandbySwitched 重要 仅故障自动主备切换支持事件监控,手动主备切换不支持。