searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

记一次zk连接超时导致TeleDB备份失败的处理过程

2023-11-14 03:26:08
87
0

1、故障现象

某天巡检时发现有TeleDB实例备份失败,报错:wait: remote command exited without exit status or exit signal

2、故障分析

该报错由备份进程backuprecovery抛出,需要查询详细backuprecovery.log来确定问题。

3、故障处理

  • 通过查询配置库确定具体set对应的backuprecovery进程,SQL如下:
  • 根据控制台备份失败时间点定位log位置,报错如下:

[ERROR] (teledb/pkg/backuprecovery/backup.(*basicBackupManager).logErrorAndReport:161) [set_1972382838801]backup end because run xtrabackup failed, run innobackup failed, wait: remote command exited without exit status or exit signal

[ERROR] (teledb/pkg/backuprecovery/backup.(*basicBackupManager).Cancel:280) try to kill innobackup failed!, wait: remote command exited without exit status or exit signal

……

  • 日志中是连接zk异常,导致备份进程中断。
  • 检查客户环境发现网络延时较大,查看zk集群配置,ticktime默认2s。修改tickTime为20s后重启zk集群,在下次备份时没有再报错。

 

4、故障总结

  • 备份过程中,控制台仍需要连接zk写心跳,如果连接zk异常,可能会导致进行中的所有备份任务失败。(中止xtrabackup进程)
0条评论
0 / 1000
1****n
19文章数
0粉丝数
1****n
19 文章 | 0 粉丝
原创

记一次zk连接超时导致TeleDB备份失败的处理过程

2023-11-14 03:26:08
87
0

1、故障现象

某天巡检时发现有TeleDB实例备份失败,报错:wait: remote command exited without exit status or exit signal

2、故障分析

该报错由备份进程backuprecovery抛出,需要查询详细backuprecovery.log来确定问题。

3、故障处理

  • 通过查询配置库确定具体set对应的backuprecovery进程,SQL如下:
  • 根据控制台备份失败时间点定位log位置,报错如下:

[ERROR] (teledb/pkg/backuprecovery/backup.(*basicBackupManager).logErrorAndReport:161) [set_1972382838801]backup end because run xtrabackup failed, run innobackup failed, wait: remote command exited without exit status or exit signal

[ERROR] (teledb/pkg/backuprecovery/backup.(*basicBackupManager).Cancel:280) try to kill innobackup failed!, wait: remote command exited without exit status or exit signal

……

  • 日志中是连接zk异常,导致备份进程中断。
  • 检查客户环境发现网络延时较大,查看zk集群配置,ticktime默认2s。修改tickTime为20s后重启zk集群,在下次备份时没有再报错。

 

4、故障总结

  • 备份过程中,控制台仍需要连接zk写心跳,如果连接zk异常,可能会导致进行中的所有备份任务失败。(中止xtrabackup进程)
文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0