天翼云门户网址_天翼云门户网址文档介绍内容-天翼云

ALM-43017 JDBCServer2x进程Full GC次数超出阈值
本章节主要介绍ALM43017 JDBCServer2x进程Full GC次数超出阈值的告警。告警解释系统每60秒周期性检测JDBCServer2x进程的Full GC次数，当检测到JDBCServer2x进程的Full GC次数超出阈值（连续3次检测超过12次）时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Spark2x > GC次数 > JDBCServer2x的Full GC次数”修改阈值。当JDBCServer2x进程Full GC次数小于或等于阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 43017 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 GC次数超出阈值，会影响JDBCServer2x进程运行的性能，甚至造成JDBCServer2x进程不可用。可能原因该节点JDBCServer2x进程堆内存使用率过大，或配置的堆内存不合理，导致进程Full GC频繁。处理步骤检查Full GC次数在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“告警ID”为“43017”的告警，查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”，单击上报告警的JDBCServer2x，进入实例“概览”页面，单击图表区域右上角的下拉菜单，选择“定制 > JDBCServer2x的Full GC次数”，单击“确定”，查看JDBCServer进程的Full GC次数是否大于阈值（默认12）。是，执行步骤3。否，执行步骤6。 2. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”，单击“全部配置”，选择“JDBCServer2x > 性能”，“SPARKDRIVERMEMORY”参数的默认值为4G，可根据如下原则进行调整：若偶现告警，可以按0.5倍速率调大。若告警次数比较频繁，可以按1倍速率调大。多业务量、高并发的情况可以考虑增加实例。 3. 重启所有的JDBCServer2x实例。 4. 等待10分钟，观察界面告警是否清除。是，处理完毕。否，执行步骤6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43017 JDBCServer2x进程Full GC次数超出阈值
ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
告警ID 告警级别是否自动清除 13005 次要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
ALM-13007 ZooKeeper客户端可用连接数不足
本章节主要介绍 ALM13007 ZooKeeper客户端可用连接数不足。告警解释系统每60秒周期性检测ZooKeeper客户端连接到ZooKeeper服务器上的活动进程数，当检测到连接数目超过阈值时产生该告警。告警属性告警ID 告警级别是否自动清除 13007 次要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 ClientIP 客户端IP。 ServerIP 服务端IP。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响大量进程连接到ZooKeeper，导致ZooKeeper连接数被占满，无法对外正常提供服务。可能原因客户端大量进程连接到ZooKeeper，或者自定义阈值设置不合理。处理步骤检查客户端是否存在大量进程连接ZooKeeper的情况 1. 在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，单击告警“ZooKeeper客户端可用连接数不足”所在行的下拉菜单，在定位信息中确认告警上报的主机名所在的节点IP地址。 2. 选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper”，单击“资源”进入资源页面，在表“连接数（按客户端IP）”中查看告警对应客户端IP的连接数是否较大。是，执行步骤3。否，执行步骤4。 3. 请确认并排查该客户端是否存在进程连接泄露的情况。 4. 单击“连接数（按客户端IP）”中的，进入“阈值设置”页面，单击“操作”下的“修改”。参考“集群 > 待操作集群的名称 > 服务 > ZooKeeper > 配置 > 全部配置 > quorumpeer”中参数“ maxClientCnxns”的值，调大阈值。 5. 观察界面告警是否清除。是，处理完毕。否，执行步骤 6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-13007 ZooKeeper客户端可用连接数不足
ALM-13008 ZooKeeper Znode数量使用率超出阈值
本章节主要介绍 ALM13008 ZooKeeper Znode数量使用率超出阈值。告警解释系统每小时周期性检测ZooKeeper服务数据目录下二级znode状态，当检测到二级znode的总数量超过阈值时产生该告警。告警属性告警ID 告警级别是否自动清除 13008 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。服务目录产生告警的目录名称。角色名产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响向ZooKeeper数据目录空间写入大量数据，导致ZooKeeper无法对外正常提供服务。可能原因往ZooKeeper数据目录空间写入大量数据。自定义阈值设置不合理。处理步骤检查告警目录是否写入大量数据 1. 登录FusionInsight Manager，选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper”，单击“资源”，在精细化监控“资源使用（按二级Znode）”中单击“按Znode数量”，查看监控中是否有顶级Znode被写入较多数据。是，执行步骤2。否，执行步骤4。 2. 登录FusionInsight Manager，选择“运维 > 告警 > 告警”，打开告警“ALM13008 ZooKeeper Znode数量使用率超出阈值”左侧下拉菜单，在“定位信息”的“服务目录”中获取告警的Znode路径。 3. 以集群用户登录ZooKeeper客户端，删除告警对应Znode下的无用数据。 4. 登录FusionInsight Manager，选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 配置 > 全部配置”，搜索“max.znode.count”，即ZooKeeper目录的数量配额的最大值，告警阈值为该值的80%，修改调大该配置项，单击“保存”，重启服务使配置生效。 5. 观察界面告警是否清除。是，处理完毕。否，执行步骤 6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-13008 ZooKeeper Znode数量使用率超出阈值
ALM-19011 RegionServer的Region数量超出阈值
调整阈值 16.在FusionInsight Manager首页，选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HBase > 单个RegionServer的Region数目”，选中目前应用的规则，单击“修改”查看目前的阈值设置是否合理。如果过小，则根据集群实际情况，增大阈值，执行步骤17。如果阈值设置合理，则执行步骤18。 17.观察该告警是否清除。是，处理完毕。否，执行步骤18。系统扩容 18.对HBase集群扩容，增加节点，并在节点上增加RegionServer实例，然后按照“负载均衡”小节中，打开负载均衡功能并手动触发。 19.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务”，单击产生该告警的HBase服务实例，单击“HMaster(主)”，打开该HBase实例的WebUI，刷新页面查看Region分布是否均衡。是，执行步骤20。否，执行步骤21。 20.观察该告警是否清除。是，处理完毕。否，执行步骤21。收集故障信息 21.在主备集群的FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 22.在“服务”中勾选待操作集群的“HBase”。 23.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 24.请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-19011 RegionServer的Region数量超出阈值
ALM-16003 Background线程使用率超过阈值
检查HiveServer background线程池容量 5.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Hive > 具体的HiveServer实例 ”，找到“Background线程数”与“Background线程使用率”监控信息。 6.查看“${BIGDATAHOME}/FusionInsightHD8.1.0.1/123HiveServer/etc/hivesite.xml”文件中“hive.server2.async.exec.threads”数量，适当增大该数值（如：增大原数值的20%）。 7.保存更新配置。 8.查看本告警是否恢复。是，操作结束。否，执行步骤9。收集故障信息 9.在FusionInsight Manager首页，选择“运维 > 日志 > 下载”。 10.在“服务”中勾选待操作集群的“Hive”。 11.单击右上角的设置日志收集的“开始时间”和“结束时间”，分别为告警产生时间的前后10分钟，单击“下载”。 12.请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-16003 Background线程使用率超过阈值
ALM-16005 Hive服务进程堆内存使用超出阈值
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-16005 Hive服务进程堆内存使用超出阈值
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Threshold 产生告警的阈值。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
ALM-12033 慢盘故障
更换磁盘 18. 在FusionInsight Manager界面，选择“运维 > 告警 > 告警”。 19. 查看该告警的详细信息，查看定位信息中对应的“主机名”字段和“磁盘名”字段的值，获取该告警上报的故障磁盘信息。 20. 更换硬盘。 21. 检查告警是否清除。是，操作结束。否，执行步骤22。收集故障信息 22. 在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 23. 在“服务”中勾选“OMS”，单击“确定”。 24. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 25. 请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-12033 慢盘故障
ALM-43013 JDBCServer2x进程GC时间超出阈值
告警ID 告警级别是否自动清除 43013 重要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43013 JDBCServer2x进程GC时间超出阈值
ALM-43012 JDBCServer2x进程直接内存使用超出阈值
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43012 JDBCServer2x进程直接内存使用超出阈值
ALM-43010 JDBCServer2x进程堆内存使用超出阈值
告警ID 告警级别是否自动清除 43010 重要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43010 JDBCServer2x进程堆内存使用超出阈值
ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
本章节主要介绍ALM43011 JDBCServer2x进程非堆内存使用超出阈值的告警。告警解释系统每30秒周期性检测JDBCServer2x进程非堆内存使用状态，当检测到JDBCServer2x进程非堆内存使用率超出阈值（最大内存的95%）时产生该告警。告警属性告警ID 告警级别是否自动清除 43011 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 JDBCServer2x进程非堆内存使用率过高，会影响JDBCServer2x进程运行的性能，甚至造成内存溢出导致JDBCServer2x进程不可用。可能原因该节点JDBCServer2x进程非堆内存使用率过大，或配置的非堆内存不合理，导致使用率超过阈值。处理步骤检查非堆内存使用率在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“ID”为“43011”的告警，查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”，单击告警上报的JDBCServer2x，进入实例“概览”页面，单击图表区域右上角的下拉菜单，选择“定制 > JDBCServer2x内存使用率统计”，单击“确定”，查看JDBCServer2x进程使用的非堆内存是否已达到JDBCServer2x进程设定的最大非堆内存的阈值（默认95%）。是，执行步骤3。否，执行步骤7。 2. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”，单击告警上报的JDBCServer2x，进入实例“概览”页面，单击图表区域右上角的下拉菜单，选择“定制 > JDBCServer2x进程的非堆内存统计” ，单击“确定”，根据告警产生时间，查看对应时间段的“JDBCServer2x进程使用的非堆内存”的值，获取最大值。 3. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”，单击“全部配置”，选择“JDBCServer2x > 性能”，将“spark.driver.extraJavaOptions”参数中XX:MaxMetaspaceSize的值根据如下原则调整：告警时间段内JDBCServer2x使用的非堆内存的最大值和“JDBCServer2x非堆内存使用率统计（JDBCServer2x）”阈值的比值。说明在FusionInsight Manager首页，选择“运维 > 告警 > 阈值设置 >待操作集群名称 > Spark2x > 内存 > JDBCServer2x非堆内存使用率统计（JDBCServer2x）”，可查看“阈值”。 4. 重启所有的JDBCServer2x实例。 5. 等待10分钟，观察界面告警是否清除。是，处理完毕。否，执行步骤7。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
ALM-12015 设备分区文件系统只读
本章节主要介绍ALM12015 设备分区文件系统只读。告警解释系统按60秒周期进行扫描，如果检测到挂载服务目录的设备分区变为只读模式（如设备有坏扇区、文件系统存在故障等原因），则触发此告警。系统如果检测到挂载服务目录的设备分区的只读模式消失（比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因），则告警恢复。告警属性告警ID 告警级别是否自动清除 12015 重要是告警参数参数名称参数含义来源产生告警的集群或系统名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。挂载目录名产生告警的挂载目录名。设备分区名产生告警的设备分区名。对系统的影响造成服务数据无法写入，业务系统运行不正常。可能原因硬盘存在坏道等故障。处理步骤 1.打开FusionInsight Manager页面，选择“运维 > 告警 > 告警”，单击此告警所在行的。 2.从“定位信息”中获取“主机名”和“设备分区名”，其中“主机名”为故障告警的节点，“设备分区名”为故障磁盘的分区。 3.联系硬件工程师确认为磁盘硬件故障之后，将服务器上故障磁盘在线拔出。 4.拔出磁盘后系统会上报“ALM12014 分区丢失”告警，参考ALM12014 分区丢失进行处理，处理完成后，本告警即可自动消除。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-12015 设备分区文件系统只读
ALM-14024 租户空间使用率超过阈值
本章节主要介绍ALM14024 租户空间使用率超过阈值的告警。告警解释系统每小时周期性检测租户所关联的每个目录的空间使用率（每个目录已使用的空间大小/每个目录分配的空间大小），并把每个目录实际的空间使用率和该目录设置的阈值相比较。当检测到租户所关联的目录空间使用率高于该目录设置的阈值时，产生该告警。当上报告警的目录的空间使用率小于或等于该目录设置的阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 14024 次要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名称。租户名产生告警的租户名称。目录名产生告警的目录名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响当监控的租户目录空间使用率超过用户自定义设置的阈值时触发该告警，但不影响对该目录继续写入文件。一旦超过该目录分配的最大存储空间，则HDFS写入数据会失败。可能原因告警阈值配置不合理。租户分配的空间容量不合理

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-14024 租户空间使用率超过阈值
ALM-38008 Kafka数据目录状态异常
本章节主要介绍ALM38008 Kafka数据目录状态异常的告警。告警解释系统每60秒周期性检测Kafka数据目录状态，当检测到某数据目录状态异常时产生该告警。平滑次数为1，当数据目录状态恢复正常后，告警恢复。告警属性告警ID 告警级别是否自动清除 38008 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名称。目录名产生告警的目录名称。 Trigger Condition Kafka数据目录状态异常。对系统的影响 Kafka数据目录状态异常，会导致该数据目录上所有Partition的当前副本下线，多个节点同时出现数据目录状态异常，可能会导致部分Partition不可用。可能原因数据目录权限被篡改。数据目录所在磁盘故障。处理步骤检查故障的数据目录权限根据告警提示的主机信息，登录到该节点上。 1. 查看告警详细信息中所提示的数据目录及其子目录，属组是否为omm:wheel。是，记录当前节点主机名，并执行步骤4。否，执行步骤3。 2. 恢复数据目录及其子目录的属组为omm:wheel。检查数据目录所在磁盘是否故障使用omm用户，在所提示的数据目录的上一级目录下，进行创建、删除文件测试，看能够正常读写磁盘。是，执行步骤6。否，执行步骤5。 3. 更换或者修复数据目录所在磁盘，保证其可以正常读写。 4. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Kafka > 实例”，进入Kafka实例页面，重启步骤2中主机名上的Broker实例。 5. 等待Broker启动完成之后，观察界面告警是否清除。是，处理完毕。否，执行步骤8。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-38008 Kafka数据目录状态异常
ALM-38006 Kafka未完全同步的Partition百分比超过阈值
收集故障信息在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 7. 在“服务”中勾选待操作集群的“Kafka”。 8. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 9. 请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-38006 Kafka未完全同步的Partition百分比超过阈值
ALM-38004 Kafka直接内存使用率超过阈值
检查Kafka配置的直接内存大小在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Kafka > 配置 > 全部配置 > Broker（角色）> 环境变量”。将“KAFKAHEAPOPTS”参数中配置的“Xmx”值参考如下说明调大。说明建议“KAFKAHEAPOPTS”参数中“Xmx”和“Xms”值保持一致。建议根据步骤2查看“Kafka直接内存使用率”，调整“KAFKAHEAPOPTS”的值为“Kafka使用的直接内存大小”的两倍（可根据实际业务场景进行修改）。 3. 保存配置，并重启Kafka服务。 4. 观察界面告警是否清除。是，处理完毕。否，执行步骤7。收集故障信息在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 5. 在“服务”中勾选待操作集群的“Kafka”。 6. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 7. 请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-38004 Kafka直接内存使用率超过阈值
ALM-38001 Kafka磁盘容量不足
告警ID 告警级别是否自动清除 38001 重要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-38001 Kafka磁盘容量不足
ALM-38002 Kafka堆内存使用率超过阈值
检查Kafka配置的堆内存大小在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Kafka > 配置 > 全部配置 > Broker（角色） > 环境变量”。将“KAFKAHEAPOPTS”参数的值参考如下说明调大。说明建议“KAFKAHEAPOPTS”参数中“Xmx”和“Xms”值保持一致。建议根据步骤2查看“Kafka堆内存使用率”，调整“KAFKAHEAPOPTS”的值为“Kafka使用的堆内存大小”的两倍（可根据实际业务场景进行修改）。 3. 观察界面告警是否清除。是，处理完毕。否，执行步骤6。收集故障信息在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 4. 在“服务”中勾选待操作集群的“Kafka”。 5. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 6. 请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-38002 Kafka堆内存使用率超过阈值
ALM-18018 NodeManager堆内存使用率超过阈值
本章节主要介绍ALM18018 NodeManager堆内存使用率超过阈值的告警。告警解释系统每30秒周期性检测Yarn服务堆内存使用状态，当检测到NodeManager实例堆内存使用率超出阈值（最大内存的95%）时产生该告警。堆内存使用率小于阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 18018 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 NodeManager堆内存使用率过高，会影响Yarn任务提交和运行的性能，甚至可能会造成内存溢出导致Yarn服务崩溃。可能原因该节点NodeManager实例堆内存使用率过大，或配置的堆内存不合理，导致使用率超过阈值。处理步骤检查堆内存使用率 1.在FusionInsight Manager首页，选择“运维 > 告警 > 告警 > ALM18018 NodeManager堆内存使用率超过阈值 > 定位信息”。查看告警上报的实例的IP地址。 2.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例 > NodeManager（对应上报告警实例IP地址）”，单击图表区域右上角的下拉菜单，选择“定制 > 资源”，勾选“NodeManager内存使用率”。查看堆内存使用情况。 3.查看NodeManager使用的堆内存是否已达到NodeManager设定的最大堆内存的95%(默认阈值)。是，执行步骤4。否，执行步骤6。 4.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置 > NodeManager > 系统”。将“GCOPTS”参数的值根据实际情况调大。保存配置，并重启NodeManager实例。说明集群中的NodeManager实例数量和NodeManager内存大小的对应关系参考如下：集群中的NodeManager实例数据达到100，NodeManager实例的JVM参数建议配置为：Xms2G Xmx4G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到200，NodeManager实例的JVM参数建议配置为：Xms4G Xmx4G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到500以上，NodeManager实例的JVM参数建议配置为：Xms8G Xmx8G XX:NewSize1G XX:MaxNewSize2G。 5.观察界面告警是否清除。是，处理完毕。否，执行步骤6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18018 NodeManager堆内存使用率超过阈值
ALM-18019 JobHistoryServer非堆内存使用率超过阈值
告警ID 告警级别是否自动清除 18019 重要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18019 JobHistoryServer非堆内存使用率超过阈值
ALM-18015 JobHistoryServer直接内存使用率超过阈值
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18015 JobHistoryServer直接内存使用率超过阈值
ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
收集故障信息 9.在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 10.在“服务”中勾选待操作集群的“HBase”。 11.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 12.请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
ALM-29106 Tserver进程CPU占用率过高
收集故障信息 4. 在FusionInsight Manager首页，单击“运维 > 日志 > 下载”。 5. 在“服务”中勾选待操作集群的如下节点信息。 Kudu 6. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 7. 请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-29106 Tserver进程CPU占用率过高
ALM-29104 Tserver进程内存占用率超过阈值
告警ID 告警级别是否自动清除 29104 紧急是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-29104 Tserver进程内存占用率超过阈值
ALM-12078 omm密码过期
参数名称参数含义来源产生告警的集群或系统名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-12078 omm密码过期
ALM-12081 ommdba用户过期
告警ID 告警级别是否自动清除 12081 重要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-12081 ommdba用户过期
ALM-12082 ommdba用户即将过期
本章节主要介绍 ALM12082 ommdba用户即将过期。告警解释系统每天零点开始，每8小时检测当前系统中ommdba用户是否即将过期，如果用户即将在15天内过期，则发送告警。当系统中ommdba用户过期的期限重置，当前状态为正常，告警恢复。告警属性告警ID 告警级别是否自动清除 12082 次要是告警参数参数名称参数含义来源产生告警的集群或系统名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。对系统的影响 ommdba用户过期，OMS数据库无法管理，数据不能被访问。可能原因该主机ommdba用户即将过期。处理步骤检查系统中ommdba用户是否即将过期 1.以root用户登录集群故障节点。执行chage l ommdba命令来查看当前ommdba用户设置信息。 2.查找“Account expires”对应值，查看用户设置是否即将过期。说明如果参数值为“never”，则代表永不过期；如果为日期值，则查看是否在15天内过期。是，执行步骤3。否，执行步骤4。 3.执行 chage E 'yyyyMMdd' ommdba命令设置 ommdba 用户过期的期限，等待8小时，观察告警是否自动清除。是，操作结束。否，执行步骤4。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-12082 ommdba用户即将过期
ALM-29006 Impalad ODBC连接数超过阈值
本章节主要介绍ALM29006 Impalad ODBC连接数超过阈值的告警。告警解释以30s为周期检测连接到该Impalad节点的客户端连接数，当检测到的连接数超过自定义阈值（默认60）时，系统产生此告警。当系统检测到客户端连接数减少到阈值以下时，告警将自动解除。告警属性告警ID 告警级别是否自动清除 29006 重要是告警参数参数名称参数含义来源产生告警的集群名称服务名产生告警的服务名称角色名产生告警的角色名称主机名产生告警的主机名 Trigger Condition 系统当前指标取值满足自定义的告警设置条件对系统的影响后续新建立客户端连接可能会阻塞甚至失败。可能原因该Impalad服务维护的客户端连接过多，或者阈值设定的太小。处理步骤 1. 在FusionInsight Manager首页，选择“运维 > 告警 > 阈值设置 > Impala > 连接数 > 已经连接到Impalad进程的ODBC数量" ，检查阈值大小。 2. 检查连接到当前Impalad进程的ODBC应用数，并关闭闲置的应用，观察告警是否自动清除。是，处理完毕。否，执行步骤3，修改并发Impalad支持的并发连接数。 3. 在FusionInsight Manager首页，选择“集群 > Impala > 配置 > 全部配置 > Impalad > 自定义”，增加自定义参数 feservicethreads，该参数默认值64，请按照需要修改该值，单击“保存”按钮保存配置。 4. 在所有客户端的查询任务都执行完成后，选择“实例”页签，勾选所有“Impalad”实例并重启。 5. 重启完成后告警将消失，请重新运行使用ODBC方式连接Impalad的应用。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-29006 Impalad ODBC连接数超过阈值
ALM-29100 Kudu服务不可用
本章节主要介绍ALM29100 Kudu服务不可用的告警。告警解释系统每60秒周期性检测Kudu的服务状态，当检测到所有的Kudu实例都异常时，就会认为Kudu服务不可用，此时产生该告警。至少一个Kudu实例正常后，系统认为Kudu实例服务恢复，告警清除。告警属性告警ID 告警级别是否自动清除 29100 紧急是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响用户无法使用Kudu服务。可能原因 Kudu有实例存在异常。处理步骤处理Kudu实例异常 1. 在FusionInsight Manager首页，选择“运维 > 告警 > 告警”页面，找到“ALM29100 Kudu服务异常”告警。 2. 查看告警的“定位信息”一栏，记录主机名与角色名。 3. 选择“集群 > 服务 > Kudu > 实例”，单击步骤2中对应主机名的角色名称，通过查看本实例的日志，修复这个实例，然后查看是否消除各个Kudu实例异常告警。是，执行步骤4。否，执行步骤5。 4. 在“运维 > 告警 > 告警”页签，查看该告警是否恢复。是，处理完毕。否，执行步骤5。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-29100 Kudu服务不可用
ALM-29004 Impalad进程内存占用率超过阈值
告警ID 告警级别是否自动清除 29004 次要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-29004 Impalad进程内存占用率超过阈值

天翼云最新活动

云聚517 · 好价翼起拼

爆款云主机低至25.83元/年，参与拼团享更多优惠，拼成得额外优惠券

安全隔离版OpenClaw

OpenClaw云服务器专属“龙虾“套餐低至1.5折起

聚力AI赋能天翼云大模型专项

大模型特惠专区·Token Plan 轻享包低至9.9元起

青云志云端助力计划

一站式科研助手，海外资源安全访问平台，助力青年翼展宏图，平步青云

企业出海解决方案

助力您的业务扬帆出海，通达全球！

天翼云信创专区

“一云多芯、一云多态”,国产化软件全面适配，国产操作系统及硬件芯片支持丰富

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

轻量型云主机

多活容灾服务 MDR

镜像服务 IMS

弹性伸缩服务 AS

天翼云CTyunOS系统

训推服务

应用托管

科研助手

人脸比对

推荐文档

概念

产品计费方式

网页防篡改卸载

重置

域名管理

删除云安备