ALM-14013 NameNode FsImage文件更新失败 可能原因 备NameNode被停止。 备NameNode实例运行状态异常。 备NameNode合并新的FsImage失败。 备NameNode数据目录空间不足。 备NameNode推送FsImage到主NameNode失败。 主NameNode数据目录空间不足。 处理步骤 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,在告警列表中单击此告警。 2.在告警详情区域,查看“定位信息”,获取告警产生的主NameNode的主机名和所在的NameService名称。 3.选择“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”,在实例列表中找到该NameService的备NameNode实例,查看其“配置状态”是否为“已同步”。 是,执行步骤6。 否,执行步骤4。 4.勾选该备NameNode实例,单击“启动实例”,等待启动完成。 5.等待1个NameNode合并元数据的周期时间后,查看告警是否清除。 是,处理完毕。 否,执行步骤6。 查看备NameNode实例运行状态是否正常 6.查看该备NameNode实例的“运行状态”是否为“良好”。 是,执行步骤9。 否,执行步骤7。 7.勾选该备NameNode实例,单击“更多 > 重启实例”,等待启动完成。 8.启动完成后,等待1个NameNode合并元数据的周期时间,然后查看告警是否清除。 是,处理完毕。 否,执行步骤30。 备NameNode合并新的FsImage是否失败 9.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HDFS > 配置 > 全部配置”,搜索并获取“dfs.namenode.checkpoint.period”的值,该值即为NameNode合并元数据的周期。 10.选择“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”,获取产生该告警的NameService的主、备NameNode节点的业务IP地址。 11.单击“NameNode( xx ,备)”,单击“实例配置”,获取配置项“dfs.namenode.name.dir”的值,该值即为备NameNode的FsImage存储目录。 12.以root或omm用户登录备NameNode节点。 13.进入到FsImage存储目录,查看最新的FsImage的生成时间。 cd 备NameNode存储目录 /current stat c %y $(ls t grep "fsimage[09]$" head 1) 14.执行date命令获取系统当前时间。 15.计算最新FsImage的生成时间和当前时间的时间差,判断该时间差是否大于元数据合并周期的三倍。 是,执行步骤16。 否,执行步骤20。 16.备NameNode合并元数据的功能异常。执行以下命令查看是否为存储空间不足造成。 进入到FsImage存储目录,查看最近一个的FsImage的大小(单位为MB)。 cd 备NameNode存储目录 /current du m $(ls t grep "fsimage[09]$" head 1) awk '{print $1}' 17.执行命令查看备NameNode的磁盘剩余空间(单位为MB)。 df m ./ awk 'END{print $4}' 18.对比FsImage的大小和目录剩余空间大小,看剩余空间是否还能存储一个FsImage文件。 是,执行步骤7。 否,执行步骤19。 19.清理该目录所在磁盘的冗余文件,以便给元数据存放预留足够的空间。空间清理完毕后等待1个NameNode合并元数据的周期时间,查看告警是否清除。 是,处理完毕。 否,执行步骤20。