searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

记一次控制台启停Agent失败的处理过程

2023-11-15 05:34:35
17
0

1、故障现象

控制台下发启停Agent操作失败,如图:

2、故障分析

控制台启停Agent需要连上对应Agent主机并下发命令,如果操作失败,可能和主机无法正常ssh或者Agent进程执行用户、Agent目录所属权限相关。

3、故障处理

  • 检查控制台操作日志,具体日志在./telemonitor/python/operate目录下的all.log,如:

日志通过tianyistart_stop_agent.py脚本来下发命令,但具体失败的原因仍不清晰

  • 检查控制台到目标主机ssh是否正常

和运维人员沟通也得知目标主机最近没有做修改主机账号密码操作,这里检查也没问题。并且通过查询配置库对应主机Agent账号密码也正常。

  • 检查目标主机Agent进程,发现启动用户不是默认的teledb

  • 将Agent进程先停掉,并且修改对应目标为teledb,尤其注意修改Agent日志目录,/tmp/mysqlreport和/tmp/mysqlreport_daemon/,如图:

  • 修改成teledb用户后再次到控制台执行启停,命令下发成功,如图:

4、故障总结

  • TeleDB控制台下发命令时需要到配置库查询对应用户,默认用户是teledb。如果运维过程中,使用root用户手动启停过Agent,将导致Agent进程及相关日志所属权限发现变化,进而在控制台启停操作失败。
  • 日常运维过程中,建议登陆主机后先切换为teledb用户,再执行相关操作。
0条评论
0 / 1000
1****n
19文章数
0粉丝数
1****n
19 文章 | 0 粉丝
原创

记一次控制台启停Agent失败的处理过程

2023-11-15 05:34:35
17
0

1、故障现象

控制台下发启停Agent操作失败,如图:

2、故障分析

控制台启停Agent需要连上对应Agent主机并下发命令,如果操作失败,可能和主机无法正常ssh或者Agent进程执行用户、Agent目录所属权限相关。

3、故障处理

  • 检查控制台操作日志,具体日志在./telemonitor/python/operate目录下的all.log,如:

日志通过tianyistart_stop_agent.py脚本来下发命令,但具体失败的原因仍不清晰

  • 检查控制台到目标主机ssh是否正常

和运维人员沟通也得知目标主机最近没有做修改主机账号密码操作,这里检查也没问题。并且通过查询配置库对应主机Agent账号密码也正常。

  • 检查目标主机Agent进程,发现启动用户不是默认的teledb

  • 将Agent进程先停掉,并且修改对应目标为teledb,尤其注意修改Agent日志目录,/tmp/mysqlreport和/tmp/mysqlreport_daemon/,如图:

  • 修改成teledb用户后再次到控制台执行启停,命令下发成功,如图:

4、故障总结

  • TeleDB控制台下发命令时需要到配置库查询对应用户,默认用户是teledb。如果运维过程中,使用root用户手动启停过Agent,将导致Agent进程及相关日志所属权限发现变化,进而在控制台启停操作失败。
  • 日常运维过程中,建议登陆主机后先切换为teledb用户,再执行相关操作。
文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0