DCP-TeleDB 故障问题、运维问题
数据库集群全部宕机,主机卡死
1、故障现象:
-
运维人员发现数据库宕机了,主库从库集体宕机,keepalive、agent、zk所有服务宕机
-
控制台查看监控全部失联状态
2、故障分析
-
所以集群宕机,服务全部挂掉,可能主机有问题
-
主机失联,新增防火墙规则
-
主机本身问题,内存占满等
-
3、故障原因
-
通过远程方式连接主库主机,连接不上
-
原来从库主机还能连接,但发现特别的卡,通过排查发现内存被一个Auditd的服务占满了
-
Auditd 是个审计的工具,占满内存的原因和研发沟通,那边给出的原因
-
鲲鹏麒麟主机的镜像还是有bug 是麒麟的一个bug,以往也有这种情况,估计上传镜像没有完成优化。
-
4、解决方案
(1)方案一:
-
1、重启主机
-
2、上传补丁,打上补丁
-
3、重启teledb所以服务
-
4、集群恢复成功
(2)方案二:
-
关闭Auditd 审计服务,设置开机不启动