DNS问题导致HDFS JournalNode启动慢问题排查
故障现象
JournalNode到服务可用,完成RPC Listen,需要花费3分钟左右
查看日志耗时,如下图
排查过程
由于同一台主机上也部署了NameNode服务,查看NameNode服务启动时,RPC Listen步骤几乎没有任何延时,与JournalNode服务的区别在于,NameNode的RPC端口在指定的IP上监听,而JournalNode的RPC端口指定在0.0.0.0上监听
尝试修改JournalNode配置,让JournalNode的RPC端口也在指定IP上监听,启动后立刻RPC Listen成功,几乎没有延时
使用nmap -v 0.0.0.0命令,发现在dns resolve步骤耗时20s,检查配置的DNS服务地址,发现配置了多个无法联通的地址
注释掉无法联通的DNS地址后,测试JournalNode服务在0.0.0.0地址监听,成功启动,无延时
结论
配置了不可用的DNS服务,导致JournalNode服务在0.0.0.0地址监听端口耗时很大,造成JournalNode启动慢的问题