ALM-19000 HBase服务不可用 检查HDFS服务状态 5.在告警列表中,查看是否有“ALM14000 HDFS服务不可用”告警产生。 是,执行步骤6。 否,执行步骤8。 6.参考“ALM14000 HDFS服务不可用”的处理步骤处理该故障。 7.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤8。 8.在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HDFS”,查看HDFS“安全模式”是否为“ON”。 是,执行步骤9。 否,执行步骤12。 9.以root用户登录HDFS客户端。执行cd命令进入客户端安装目录,然后执行 source bigdataenv 。 如果集群采用安全版本,要进行安全认证。预先向管理员获取hdfs用户的密码,执行kinit hdfs命令,按提示输入密码。 10.执行以下命令手动退出安全模式。 hdfs dfsadmin safemode leave 11.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤12。 检查HBase服务状态 12.在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HBase”。 13.查看2个HMaster的状态是否为一“主”一“备”。 是,执行步骤15。 否,执行步骤14。 14.单击“实例”,选择非主状态的HMaster实例,单击“更多 > 重启实例”重启HMaster,再次查看2个HMaster的状态是否为一“主”一“备”。 是,执行步骤15。 否,执行步骤21。 15.选择“集群 > 待操作集群的名称 > 服务 > HBase > HMaster(主)”,进入HMaster的WebUI页面。 说明 admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。 16.查看Region Servers下是否存在至少一个RegionServer。 是,执行步骤17。 否,执行步骤21。 17.查看“Tables > System Tables”,如下图,查看该标签的“Table Name”列下是否存在“hbase:meta”、“hbase:namespace”和“hbase:acl”。 是,执行步骤18。 否,执行步骤19。 HBase系统表 18.如上图,分别单击“hbase:meta”、“hbase:namespace”和“hbase:acl”超链接,查看所有页面是否能正常打开。如果页面能正常打开,说明表都正常。 是,执行步骤19。 否,执行步骤23。 说明 由于普通模式下的HBase默认未开启ACL权限控制,只有在手动开启ACL权限控制后才会存在“hbase:acl”表,需要检查该表,否则不需要检查该表。 19.查看HMaster的启动状态。 如下图在“Tasks” 下有“RUNNING”的状态表示HMaster正在启动,“State”列有HMaster处于“RUNNING”状态的时间。如下图中的“COMPLETE”状态表示HMaster启动完成。 查看HMaster是否持续了很长一段时间处于“RUNNING”状态。 HMaster正在启动的状态 HMaster启动完成的状态 是,执行步骤20。 否,执行步骤21。 20.查看HMaster页面是否有hbase:meta长时间处于“Region in Transition”的状态。 详见下图:Region处于Region in Transition的状态 是,执行步骤21。 否,执行步骤22。 21.确认在不影响业务的情况下,登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HBase > 更多 > 重启服务”,输入密码,单击“确定”。 是,执行步骤22。 否,执行步骤23。 22.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤23。