ALM-14006 HDFS文件数超过阈值 检查系统中是否有不需要的文件 6. 以root用户登录HDFS客户端。执行cd命令进入客户端安装目录,然后执行source bigdataenv命令设置环境变量。 如果集群采用安全版本,要进行安全认证。 执行kinit hdfs命令,按提示输入密码。向管理员获取密码。 7. 执行hdfs dfs ls 文件或目录路径命令,检查该目录下的文件或目录是否是可以删除的无用文件。 是,执行步骤8。 否,执行步骤9。 8. 执行hdfs dfs rm r 文件或目录路径命令。确认删除无用的文件后,等待文件在垃圾站中超过保留时间后(NameNode的配置参数“fs.trash.interval”指定了垃圾站中数据的保留时间),检查本告警是否清除。 说明 说明 删除文件为高危操作,在执行操作前请务必确认对应文件是否不再需要。 是,处理完毕。 否,执行步骤 9。 收集故障信息 9. 在FusionInsight Manager首页,单击“运维 > 日志 > 下载”。 10. 在“服务”中勾选待操作集群的“HDFS”。 11. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 12. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 NameNodeJVM参数配置规则 NameNode JVM参数“GCOPTS”默认值为: Xms2G Xmx4G XX:NewSize128M XX:MaxNewSize256M XX:MetaspaceSize128M XX:MaxMetaspaceSize128M XX:+UseConcMarkSweepGC XX:+CMSParallelRemarkEnabled XX:CMSInitiatingOccupancyFraction65 XX:+PrintGCDetails Dsun.rmi.dgc.client.gcInterval0x7FFFFFFFFFFFFFE Dsun.rmi.dgc.server.gcInterval0x7FFFFFFFFFFFFFE XX:OmitStackTraceInFastThrow XX:+PrintGCDateStamps XX:+UseGCLogFileRotation XX:NumberOfGCLogFiles10 XX:GCLogFileSize1M Djdk.tls.ephemeralDHKeySize3072 Djdk.tls.rejectClientInitiatedRenegotiationtrue Djava.io.tmpdir${Bigdatatmpdir} NameNode文件数量和NameNode使用的内存大小成比例关系,文件对象变化时请修改默认值中的“Xms2G Xmx4G XX:NewSize128M XX:MaxNewSize256M”。参考值如下表所示。 文件对象数量 参考值 10,000,000 Xms6G Xmx6G XX:NewSize512M XX:MaxNewSize512M 20,000,000 Xms12G Xmx12G XX:NewSize1G XX:MaxNewSize1G 50,000,000 Xms32G Xmx32G XX:NewSize3G XX:MaxNewSize3G 100,000,000 Xms64G Xmx64G XX:NewSize6G XX:MaxNewSize6G 200,000,000 Xms96G Xmx96G XX:NewSize9G XX:MaxNewSize9G 300,000,000 Xms164G Xmx164G XX:NewSize12G XX:MaxNewSize12G