社区专栏>HBase集群掉电后部分Region一直处于offline状态>
原创
HBase集群掉电后部分Region一直处于offline状态
问题背景与现象
集群掉电后重启HBase服务,部分Region一直处于offline状态
原因分析
- 每张表都有部分Region处于offline状态,offline状态的Region分布在不同的RegionServer上。
- 怀疑掉电导致RegionServer部分WAL文件异常,检查WAL文件发现存在大量splitting状态的WAL文件。
- 如果WAL文件损坏无法回放就会以splitting状态保存在WAL目录下,这部分WAL文件保存的数据对应的Region无法正常上线。
解决办法
- 手动将splitting状态的WAL全部移走。
hdfs dfs -mv /hbase/WALs/hostnamexxxxx-splitting /tmp/back/
- 执行hbase hbck -fixAssignments上线Region成功。
原创
HBase集群掉电后部分Region一直处于offline状态
问题背景与现象
集群掉电后重启HBase服务,部分Region一直处于offline状态
原因分析
- 每张表都有部分Region处于offline状态,offline状态的Region分布在不同的RegionServer上。
- 怀疑掉电导致RegionServer部分WAL文件异常,检查WAL文件发现存在大量splitting状态的WAL文件。
- 如果WAL文件损坏无法回放就会以splitting状态保存在WAL目录下,这部分WAL文件保存的数据对应的Region无法正常上线。
解决办法
- 手动将splitting状态的WAL全部移走。
hdfs dfs -mv /hbase/WALs/hostnamexxxxx-splitting /tmp/back/
- 执行hbase hbck -fixAssignments上线Region成功。