searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

数据库集群全部宕机,主机卡死

2023-10-20 10:18:01
26
0

DCP-TeleDB 故障问题、运维问题

 

数据库集群全部宕机,主机卡死

1、故障现象:

 

  •  运维人员发现数据库宕机了,主库从库集体宕机,keepalive、agent、zk所有服务宕机

  • 控制台查看监控全部失联状态

 

2、故障分析

 

  • 所以集群宕机,服务全部挂掉,可能主机有问题

    • 主机失联,新增防火墙规则

    • 主机本身问题,内存占满等

 

3、故障原因

 

  • 通过远程方式连接主库主机,连接不上

 

  • 原来从库主机还能连接,但发现特别的卡,通过排查发现内存被一个Auditd的服务占满了

 

  • Auditd 是个审计的工具,占满内存的原因和研发沟通,那边给出的原因

    • 鲲鹏麒麟主机的镜像还是有bug 是麒麟的一个bug,以往也有这种情况,估计上传镜像没有完成优化。

 

4、解决方案

 

(1)方案一:

  • 1、重启主机

  • 2、上传补丁,打上补丁

  • 3、重启teledb所以服务

  • 4、集群恢复成功

 

(2)方案二:

  • 关闭Auditd 审计服务,设置开机不启动

0条评论
0 / 1000
邝浚杰
2文章数
0粉丝数
邝浚杰
2 文章 | 0 粉丝
邝浚杰
2文章数
0粉丝数
邝浚杰
2 文章 | 0 粉丝
原创

数据库集群全部宕机,主机卡死

2023-10-20 10:18:01
26
0

DCP-TeleDB 故障问题、运维问题

 

数据库集群全部宕机,主机卡死

1、故障现象:

 

  •  运维人员发现数据库宕机了,主库从库集体宕机,keepalive、agent、zk所有服务宕机

  • 控制台查看监控全部失联状态

 

2、故障分析

 

  • 所以集群宕机,服务全部挂掉,可能主机有问题

    • 主机失联,新增防火墙规则

    • 主机本身问题,内存占满等

 

3、故障原因

 

  • 通过远程方式连接主库主机,连接不上

 

  • 原来从库主机还能连接,但发现特别的卡,通过排查发现内存被一个Auditd的服务占满了

 

  • Auditd 是个审计的工具,占满内存的原因和研发沟通,那边给出的原因

    • 鲲鹏麒麟主机的镜像还是有bug 是麒麟的一个bug,以往也有这种情况,估计上传镜像没有完成优化。

 

4、解决方案

 

(1)方案一:

  • 1、重启主机

  • 2、上传补丁,打上补丁

  • 3、重启teledb所以服务

  • 4、集群恢复成功

 

(2)方案二:

  • 关闭Auditd 审计服务,设置开机不启动

文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0