1、故障现象
控制台下发启停Agent操作失败,如图:
2、故障分析
控制台启停Agent需要连上对应Agent主机并下发命令,如果操作失败,可能和主机无法正常ssh或者Agent进程执行用户、Agent目录所属权限相关。
3、故障处理
- 检查控制台操作日志,具体日志在./telemonitor/python/operate目录下的all.log,如:
日志通过tianyistart_stop_agent.py脚本来下发命令,但具体失败的原因仍不清晰
- 检查控制台到目标主机ssh是否正常
和运维人员沟通也得知目标主机最近没有做修改主机账号密码操作,这里检查也没问题。并且通过查询配置库对应主机Agent账号密码也正常。
- 检查目标主机Agent进程,发现启动用户不是默认的teledb
- 将Agent进程先停掉,并且修改对应目标为teledb,尤其注意修改Agent日志目录,/tmp/mysqlreport和/tmp/mysqlreport_daemon/,如图:
- 修改成teledb用户后再次到控制台执行启停,命令下发成功,如图:
4、故障总结
- TeleDB控制台下发命令时需要到配置库查询对应用户,默认用户是teledb。如果运维过程中,使用root用户手动启停过Agent,将导致Agent进程及相关日志所属权限发现变化,进而在控制台启停操作失败。
- 日常运维过程中,建议登陆主机后先切换为teledb用户,再执行相关操作。