ALM-19006 HBase容灾同步失败 检查备集群HBase服务状态 4.登录主集群FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 5.在告警列表中单击该告警,从完整的告警信息中的“定位信息”处获得“主机名”。 6.以omm用户进入主集群HBase客户端所在节点。 如果集群采用了安全版本,要进行安全认证,然后使用hbase用户进入hbase shell界面。 cd /opt/Bigdata/client source ./bigdataenv kinit hbaseuser 7.执行 status 'replication', 'source' 命令查看故障节点的容灾同步状态。 节点的容灾同步状态如下: 101010153: SOURCE: PeerIDabc, SizeOfLogQueue0, ShippedBatches2, ShippedOps2, ShippedBytes320, LogReadInBytes1636, LogEditsRead5, LogEditsFiltered3, SizeOfLogToReplicate0, TimeForLogToReplicate0, ShippedHFiles0, SizeOfHFileRefsQueue0, AgeOfLastShippedOp0, TimeStampsOfLastShippedOpMon Jul 18 09:53:28 CST 2016, Replication Lag0, FailedReplicationAttempts0 SOURCE: PeerIDabc1, SizeOfLogQueue0, ShippedBatches1, ShippedOps1, ShippedBytes160, LogReadInBytes1636, LogEditsRead5, LogEditsFiltered3, SizeOfLogToReplicate0, TimeForLogToReplicate0, ShippedHFiles0, SizeOfHFileRefsQueue0, AgeOfLastShippedOp16788, TimeStampsOfLastShippedOpSat Jul 16 13:19:00 CST 2016, Replication Lag16788, FailedReplicationAttempts5 eOfLogToReplicate0, TimeForLogToReplicate0, ShippedHFiles0, SizeOfHFileRefsQueue0, AgeOfLastShippedOp0, TimeStampsOfLastShippedOpMon Jul 18 09:53:28 CST 2016, Replication Lag0, FailedReplicationAttempts0 SOURCE: PeerIDabc1, SizeOfLogQueue0, ShippedBatches1, ShippedOps1, ShippedBytes160, LogReadInBytes1636, LogEditsRead5, LogEditsFiltered3, SizeOfLogToReplicate0, TimeForLogToReplicate0, ShippedHFiles0, SizeOfHFileRefsQueue0, AgeOfLastShippedOp16788, TimeStampsOfLastShippedOpSat Jul 16 13:19:00 CST 2016, Replication Lag16788, FailedReplicationAttempts5 8.找到“FailedReplicationAttempts”的值大于0的记录所对应的“PeerID”值。 如上步骤中,故障节点“101010153”同步数据到“PeerID”为“abc1”的备集群失败。 9.继续执行listpeers命令,查找该“PeerID”对应的集群和HBase实例。 PEERID CLUSTERKEY STATE TABLECFS abc1 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase2 ENABLED abc 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase ENABLED 如上所示,/hbase2表示数据是同步到备集群的HBase2实例。 10.在备集群FusionInsight Manager的服务列表中,查看通过步骤9获取的HBase实例运行状态是否为“良好”。 是,执行步骤14。 否,执行步骤11。 11.在告警列表中,查看是否有“ALM19000 HBase服务不可用”告警产生。 是,执行步骤12。 否,执行步骤14。 12.参考“ALM19000 HBase服务不可用”的处理步骤处理该故障。 13.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤14。