翼迁移_翼迁移文档介绍内容-天翼云

ALM-24013 Flume MonitorServer证书文件非法或已损坏
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-24013 Flume MonitorServer证书文件非法或已损坏
ALM-24014 Flume MonitorServer证书文件即将过期
告警ID 告警级别是否自动清除 24014 重要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-24014 Flume MonitorServer证书文件即将过期
ALM-45176 OBS元数据接口调用成功率低于阈值
告警ID 告警级别是否自动清除 45176 次要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-45176 OBS元数据接口调用成功率低于阈值
ALM-45178 OBS数据写操作接口调用成功率低于阈值
本章节主要介绍ALM45178 OBS数据写操作接口调用成功率低于阈值的告警。告警解释系统每30秒周期性检测OBS数写操作接口调用成功率是否小于阈值，当检测到小于所设置阈值时就会产生该告警。当OBS数据写操作接口调用成功率大于阈值时，该告警会自动清除。告警属性告警ID 告警级别是否自动清除 45178 次要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 OBS数据写操作接口调用成功率小于阈值，会影响上层大数据计算业务的正常执行，导致某些计算任务的执行失败。可能原因 OBS服务端出现执行异常或严重超时。处理步骤检查堆内存使用率在FusionInsight Manager首页，选择“运维 > 告警 > 告警 > OBS数据写操作接口调用成功率低于阈值”，查看“定位信息”中的角色名并确定实例的IP地址。 1. 选择“集群 > 待操作集群的名称 > 服务 > meta > 实例 > meta（对应上报告警实例IP地址）”。单击图表区域右上角的下拉菜单，选择“定制”，在“OBS数据写操作”中勾选“OBS数据写操作接口调用成功率”，单击“确定”，查看OBS数据写操作接口调用成功率，确定是否有接口调用成功率低于阈值。是，执行步骤3。否，执行步骤5。 2. 选择“集群 > 待操作集群的名称 > 运维 > 告警 > 阈值设置 > meta > OBS数据写操作接口调用成功率”，将阈值或平滑次数参数的值根据实际情况调小。 3. 观察界面告警是否清除。是，处理完毕。否，执行步骤5。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-45178 OBS数据写操作接口调用成功率低于阈值
ALM-44006 Presto Worker进程垃圾收集时间超出阈值
收集故障信息 1.在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 2.在“服务”中勾选操作集群的“Presto ”，单击“确定”。 3.单击右上角的设置日志收集的“开始时间”和“结束时间”，分别为告警产生时间的前后30分钟，单击“下载”。 4.请联系运维人员，并发送已收集的故障日志信息。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-44006 Presto Worker进程垃圾收集时间超出阈值
ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
告警ID 告警级别可自动清除 44005 严重是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
ALM-44004 Presto Coordinator资源组排队任务超过阈值
参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-44004 Presto Coordinator资源组排队任务超过阈值
ALM-43021 IndexServer2x进程直接内存使用超出阈值
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43021 IndexServer2x进程直接内存使用超出阈值
ALM-43022 IndexServer2x进程GC时间超出阈值
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43022 IndexServer2x进程GC时间超出阈值
ALM-43018 JobHistory2x进程Full GC次数超出阈值
本章节主要介绍ALM43018 JobHistory2x进程Full GC次数超出阈值的告警。告警解释系统每60秒周期性检测JobHistory2x进程的Full GC次数，当检测到JobHistory2x进程的Full GC次数超出阈值（连续3次检测超过12次）时产生该告警。用户可通过“运维 > 阈值设置 > 待操作集群的名称 > Spark2x > GC次数 > JobHistory2x的Full GC次数”修改阈值。当JobHistory2x进程Full GC次数小于或等于阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 43018 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 GC次数超出阈值，会影响JobHistory2x进程运行的性能，甚至造成JobHistory2x进程不可用。可能原因该节点JobHistory2x进程堆内存使用率过大，或配置的堆内存不合理，导致进程Full GC频繁。处理步骤检查Full GC次数在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“告警ID”为“43018”的告警，查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”，单击上报告警的JobHistory2x，进入实例“概览”页面，单击图表区域右上角的下拉菜单，选择“定制 > JobHistory2x的Full GC次数”，单击“确定”，查看JobHistory2x进程的Full GC次数是否大于阈值（默认值12）。是，执行步骤3。否，执行步骤6。 2. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”，单击“全部配置”，选择“JobHistory2x > 默认”，将“SPARKDAEMONMEMORY”参数的默认值为4G，可根据如下原则进行调整：若偶现告警，可以按0.5倍速率调大。若告警次数比较频繁，可以按1倍速率调大。 3. 重启所有的JobHistory2x实例。 4. 等待10分钟，观察界面告警是否清除。是，处理完毕。否，执行步骤6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43018 JobHistory2x进程Full GC次数超出阈值
ALM-18016 ResourceManager非堆内存使用率超过阈值
收集故障信息 6.在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 7.在“服务”中勾选待操作集群的如下节点信息。 NodeAgent。 Yarn。 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 9.请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18016 ResourceManager非堆内存使用率超过阈值
ALM-43017 JDBCServer2x进程Full GC次数超出阈值
本章节主要介绍ALM43017 JDBCServer2x进程Full GC次数超出阈值的告警。告警解释系统每60秒周期性检测JDBCServer2x进程的Full GC次数，当检测到JDBCServer2x进程的Full GC次数超出阈值（连续3次检测超过12次）时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Spark2x > GC次数 > JDBCServer2x的Full GC次数”修改阈值。当JDBCServer2x进程Full GC次数小于或等于阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 43017 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 GC次数超出阈值，会影响JDBCServer2x进程运行的性能，甚至造成JDBCServer2x进程不可用。可能原因该节点JDBCServer2x进程堆内存使用率过大，或配置的堆内存不合理，导致进程Full GC频繁。处理步骤检查Full GC次数在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“告警ID”为“43017”的告警，查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”，单击上报告警的JDBCServer2x，进入实例“概览”页面，单击图表区域右上角的下拉菜单，选择“定制 > JDBCServer2x的Full GC次数”，单击“确定”，查看JDBCServer进程的Full GC次数是否大于阈值（默认12）。是，执行步骤3。否，执行步骤6。 2. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”，单击“全部配置”，选择“JDBCServer2x > 性能”，“SPARKDRIVERMEMORY”参数的默认值为4G，可根据如下原则进行调整：若偶现告警，可以按0.5倍速率调大。若告警次数比较频繁，可以按1倍速率调大。多业务量、高并发的情况可以考虑增加实例。 3. 重启所有的JDBCServer2x实例。 4. 等待10分钟，观察界面告警是否清除。是，处理完毕。否，执行步骤6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43017 JDBCServer2x进程Full GC次数超出阈值
ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
告警ID 告警级别是否自动清除 13005 次要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
ALM-13007 ZooKeeper客户端可用连接数不足
本章节主要介绍 ALM13007 ZooKeeper客户端可用连接数不足。告警解释系统每60秒周期性检测ZooKeeper客户端连接到ZooKeeper服务器上的活动进程数，当检测到连接数目超过阈值时产生该告警。告警属性告警ID 告警级别是否自动清除 13007 次要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 ClientIP 客户端IP。 ServerIP 服务端IP。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响大量进程连接到ZooKeeper，导致ZooKeeper连接数被占满，无法对外正常提供服务。可能原因客户端大量进程连接到ZooKeeper，或者自定义阈值设置不合理。处理步骤检查客户端是否存在大量进程连接ZooKeeper的情况 1. 在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，单击告警“ZooKeeper客户端可用连接数不足”所在行的下拉菜单，在定位信息中确认告警上报的主机名所在的节点IP地址。 2. 选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper”，单击“资源”进入资源页面，在表“连接数（按客户端IP）”中查看告警对应客户端IP的连接数是否较大。是，执行步骤3。否，执行步骤4。 3. 请确认并排查该客户端是否存在进程连接泄露的情况。 4. 单击“连接数（按客户端IP）”中的，进入“阈值设置”页面，单击“操作”下的“修改”。参考“集群 > 待操作集群的名称 > 服务 > ZooKeeper > 配置 > 全部配置 > quorumpeer”中参数“ maxClientCnxns”的值，调大阈值。 5. 观察界面告警是否清除。是，处理完毕。否，执行步骤 6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-13007 ZooKeeper客户端可用连接数不足
ALM-13008 ZooKeeper Znode数量使用率超出阈值
本章节主要介绍 ALM13008 ZooKeeper Znode数量使用率超出阈值。告警解释系统每小时周期性检测ZooKeeper服务数据目录下二级znode状态，当检测到二级znode的总数量超过阈值时产生该告警。告警属性告警ID 告警级别是否自动清除 13008 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。服务目录产生告警的目录名称。角色名产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响向ZooKeeper数据目录空间写入大量数据，导致ZooKeeper无法对外正常提供服务。可能原因往ZooKeeper数据目录空间写入大量数据。自定义阈值设置不合理。处理步骤检查告警目录是否写入大量数据 1. 登录FusionInsight Manager，选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper”，单击“资源”，在精细化监控“资源使用（按二级Znode）”中单击“按Znode数量”，查看监控中是否有顶级Znode被写入较多数据。是，执行步骤2。否，执行步骤4。 2. 登录FusionInsight Manager，选择“运维 > 告警 > 告警”，打开告警“ALM13008 ZooKeeper Znode数量使用率超出阈值”左侧下拉菜单，在“定位信息”的“服务目录”中获取告警的Znode路径。 3. 以集群用户登录ZooKeeper客户端，删除告警对应Znode下的无用数据。 4. 登录FusionInsight Manager，选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 配置 > 全部配置”，搜索“max.znode.count”，即ZooKeeper目录的数量配额的最大值，告警阈值为该值的80%，修改调大该配置项，单击“保存”，重启服务使配置生效。 5. 观察界面告警是否清除。是，处理完毕。否，执行步骤 6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-13008 ZooKeeper Znode数量使用率超出阈值
ALM-19011 RegionServer的Region数量超出阈值
调整阈值 16.在FusionInsight Manager首页，选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HBase > 单个RegionServer的Region数目”，选中目前应用的规则，单击“修改”查看目前的阈值设置是否合理。如果过小，则根据集群实际情况，增大阈值，执行步骤17。如果阈值设置合理，则执行步骤18。 17.观察该告警是否清除。是，处理完毕。否，执行步骤18。系统扩容 18.对HBase集群扩容，增加节点，并在节点上增加RegionServer实例，然后按照“负载均衡”小节中，打开负载均衡功能并手动触发。 19.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务”，单击产生该告警的HBase服务实例，单击“HMaster(主)”，打开该HBase实例的WebUI，刷新页面查看Region分布是否均衡。是，执行步骤20。否，执行步骤21。 20.观察该告警是否清除。是，处理完毕。否，执行步骤21。收集故障信息 21.在主备集群的FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 22.在“服务”中勾选待操作集群的“HBase”。 23.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 24.请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-19011 RegionServer的Region数量超出阈值
ALM-16003 Background线程使用率超过阈值
检查HiveServer background线程池容量 5.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Hive > 具体的HiveServer实例 ”，找到“Background线程数”与“Background线程使用率”监控信息。 6.查看“${BIGDATAHOME}/FusionInsightHD8.1.0.1/123HiveServer/etc/hivesite.xml”文件中“hive.server2.async.exec.threads”数量，适当增大该数值（如：增大原数值的20%）。 7.保存更新配置。 8.查看本告警是否恢复。是，操作结束。否，执行步骤9。收集故障信息 9.在FusionInsight Manager首页，选择“运维 > 日志 > 下载”。 10.在“服务”中勾选待操作集群的“Hive”。 11.单击右上角的设置日志收集的“开始时间”和“结束时间”，分别为告警产生时间的前后10分钟，单击“下载”。 12.请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-16003 Background线程使用率超过阈值
ALM-16005 Hive服务进程堆内存使用超出阈值
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-16005 Hive服务进程堆内存使用超出阈值
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Threshold 产生告警的阈值。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
ALM-12033 慢盘故障
更换磁盘 18. 在FusionInsight Manager界面，选择“运维 > 告警 > 告警”。 19. 查看该告警的详细信息，查看定位信息中对应的“主机名”字段和“磁盘名”字段的值，获取该告警上报的故障磁盘信息。 20. 更换硬盘。 21. 检查告警是否清除。是，操作结束。否，执行步骤22。收集故障信息 22. 在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 23. 在“服务”中勾选“OMS”，单击“确定”。 24. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 25. 请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-12033 慢盘故障
ALM-43013 JDBCServer2x进程GC时间超出阈值
告警ID 告警级别是否自动清除 43013 重要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43013 JDBCServer2x进程GC时间超出阈值
ALM-43012 JDBCServer2x进程直接内存使用超出阈值
参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43012 JDBCServer2x进程直接内存使用超出阈值
ALM-43010 JDBCServer2x进程堆内存使用超出阈值
告警ID 告警级别是否自动清除 43010 重要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43010 JDBCServer2x进程堆内存使用超出阈值
ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
本章节主要介绍ALM43011 JDBCServer2x进程非堆内存使用超出阈值的告警。告警解释系统每30秒周期性检测JDBCServer2x进程非堆内存使用状态，当检测到JDBCServer2x进程非堆内存使用率超出阈值（最大内存的95%）时产生该告警。告警属性告警ID 告警级别是否自动清除 43011 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 JDBCServer2x进程非堆内存使用率过高，会影响JDBCServer2x进程运行的性能，甚至造成内存溢出导致JDBCServer2x进程不可用。可能原因该节点JDBCServer2x进程非堆内存使用率过大，或配置的非堆内存不合理，导致使用率超过阈值。处理步骤检查非堆内存使用率在FusionInsight Manager首页，选择“运维 > 告警 > 告警”，选中“ID”为“43011”的告警，查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”，单击告警上报的JDBCServer2x，进入实例“概览”页面，单击图表区域右上角的下拉菜单，选择“定制 > JDBCServer2x内存使用率统计”，单击“确定”，查看JDBCServer2x进程使用的非堆内存是否已达到JDBCServer2x进程设定的最大非堆内存的阈值（默认95%）。是，执行步骤3。否，执行步骤7。 2. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”，单击告警上报的JDBCServer2x，进入实例“概览”页面，单击图表区域右上角的下拉菜单，选择“定制 > JDBCServer2x进程的非堆内存统计” ，单击“确定”，根据告警产生时间，查看对应时间段的“JDBCServer2x进程使用的非堆内存”的值，获取最大值。 3. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”，单击“全部配置”，选择“JDBCServer2x > 性能”，将“spark.driver.extraJavaOptions”参数中XX:MaxMetaspaceSize的值根据如下原则调整：告警时间段内JDBCServer2x使用的非堆内存的最大值和“JDBCServer2x非堆内存使用率统计（JDBCServer2x）”阈值的比值。说明在FusionInsight Manager首页，选择“运维 > 告警 > 阈值设置 >待操作集群名称 > Spark2x > 内存 > JDBCServer2x非堆内存使用率统计（JDBCServer2x）”，可查看“阈值”。 4. 重启所有的JDBCServer2x实例。 5. 等待10分钟，观察界面告警是否清除。是，处理完毕。否，执行步骤7。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
ALM-12015 设备分区文件系统只读
本章节主要介绍ALM12015 设备分区文件系统只读。告警解释系统按60秒周期进行扫描，如果检测到挂载服务目录的设备分区变为只读模式（如设备有坏扇区、文件系统存在故障等原因），则触发此告警。系统如果检测到挂载服务目录的设备分区的只读模式消失（比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因），则告警恢复。告警属性告警ID 告警级别是否自动清除 12015 重要是告警参数参数名称参数含义来源产生告警的集群或系统名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。挂载目录名产生告警的挂载目录名。设备分区名产生告警的设备分区名。对系统的影响造成服务数据无法写入，业务系统运行不正常。可能原因硬盘存在坏道等故障。处理步骤 1.打开FusionInsight Manager页面，选择“运维 > 告警 > 告警”，单击此告警所在行的。 2.从“定位信息”中获取“主机名”和“设备分区名”，其中“主机名”为故障告警的节点，“设备分区名”为故障磁盘的分区。 3.联系硬件工程师确认为磁盘硬件故障之后，将服务器上故障磁盘在线拔出。 4.拔出磁盘后系统会上报“ALM12014 分区丢失”告警，参考ALM12014 分区丢失进行处理，处理完成后，本告警即可自动消除。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-12015 设备分区文件系统只读
ALM-14024 租户空间使用率超过阈值
本章节主要介绍ALM14024 租户空间使用率超过阈值的告警。告警解释系统每小时周期性检测租户所关联的每个目录的空间使用率（每个目录已使用的空间大小/每个目录分配的空间大小），并把每个目录实际的空间使用率和该目录设置的阈值相比较。当检测到租户所关联的目录空间使用率高于该目录设置的阈值时，产生该告警。当上报告警的目录的空间使用率小于或等于该目录设置的阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 14024 次要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名称。租户名产生告警的租户名称。目录名产生告警的目录名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响当监控的租户目录空间使用率超过用户自定义设置的阈值时触发该告警，但不影响对该目录继续写入文件。一旦超过该目录分配的最大存储空间，则HDFS写入数据会失败。可能原因告警阈值配置不合理。租户分配的空间容量不合理

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-14024 租户空间使用率超过阈值
ALM-38008 Kafka数据目录状态异常
本章节主要介绍ALM38008 Kafka数据目录状态异常的告警。告警解释系统每60秒周期性检测Kafka数据目录状态，当检测到某数据目录状态异常时产生该告警。平滑次数为1，当数据目录状态恢复正常后，告警恢复。告警属性告警ID 告警级别是否自动清除 38008 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名称。目录名产生告警的目录名称。 Trigger Condition Kafka数据目录状态异常。对系统的影响 Kafka数据目录状态异常，会导致该数据目录上所有Partition的当前副本下线，多个节点同时出现数据目录状态异常，可能会导致部分Partition不可用。可能原因数据目录权限被篡改。数据目录所在磁盘故障。处理步骤检查故障的数据目录权限根据告警提示的主机信息，登录到该节点上。 1. 查看告警详细信息中所提示的数据目录及其子目录，属组是否为omm:wheel。是，记录当前节点主机名，并执行步骤4。否，执行步骤3。 2. 恢复数据目录及其子目录的属组为omm:wheel。检查数据目录所在磁盘是否故障使用omm用户，在所提示的数据目录的上一级目录下，进行创建、删除文件测试，看能够正常读写磁盘。是，执行步骤6。否，执行步骤5。 3. 更换或者修复数据目录所在磁盘，保证其可以正常读写。 4. 在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Kafka > 实例”，进入Kafka实例页面，重启步骤2中主机名上的Broker实例。 5. 等待Broker启动完成之后，观察界面告警是否清除。是，处理完毕。否，执行步骤8。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-38008 Kafka数据目录状态异常
ALM-38006 Kafka未完全同步的Partition百分比超过阈值
收集故障信息在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 7. 在“服务”中勾选待操作集群的“Kafka”。 8. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 9. 请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-38006 Kafka未完全同步的Partition百分比超过阈值
ALM-38004 Kafka直接内存使用率超过阈值
检查Kafka配置的直接内存大小在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Kafka > 配置 > 全部配置 > Broker（角色）> 环境变量”。将“KAFKAHEAPOPTS”参数中配置的“Xmx”值参考如下说明调大。说明建议“KAFKAHEAPOPTS”参数中“Xmx”和“Xms”值保持一致。建议根据步骤2查看“Kafka直接内存使用率”，调整“KAFKAHEAPOPTS”的值为“Kafka使用的直接内存大小”的两倍（可根据实际业务场景进行修改）。 3. 保存配置，并重启Kafka服务。 4. 观察界面告警是否清除。是，处理完毕。否，执行步骤7。收集故障信息在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 5. 在“服务”中勾选待操作集群的“Kafka”。 6. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 7. 请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-38004 Kafka直接内存使用率超过阈值
ALM-38002 Kafka堆内存使用率超过阈值
检查Kafka配置的堆内存大小在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Kafka > 配置 > 全部配置 > Broker（角色） > 环境变量”。将“KAFKAHEAPOPTS”参数的值参考如下说明调大。说明建议“KAFKAHEAPOPTS”参数中“Xmx”和“Xms”值保持一致。建议根据步骤2查看“Kafka堆内存使用率”，调整“KAFKAHEAPOPTS”的值为“Kafka使用的堆内存大小”的两倍（可根据实际业务场景进行修改）。 3. 观察界面告警是否清除。是，处理完毕。否，执行步骤6。收集故障信息在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。 4. 在“服务”中勾选待操作集群的“Kafka”。 5. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 6. 请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-38002 Kafka堆内存使用率超过阈值
ALM-18018 NodeManager堆内存使用率超过阈值
本章节主要介绍ALM18018 NodeManager堆内存使用率超过阈值的告警。告警解释系统每30秒周期性检测Yarn服务堆内存使用状态，当检测到NodeManager实例堆内存使用率超出阈值（最大内存的95%）时产生该告警。堆内存使用率小于阈值时，告警恢复。告警属性告警ID 告警级别是否自动清除 18018 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 NodeManager堆内存使用率过高，会影响Yarn任务提交和运行的性能，甚至可能会造成内存溢出导致Yarn服务崩溃。可能原因该节点NodeManager实例堆内存使用率过大，或配置的堆内存不合理，导致使用率超过阈值。处理步骤检查堆内存使用率 1.在FusionInsight Manager首页，选择“运维 > 告警 > 告警 > ALM18018 NodeManager堆内存使用率超过阈值 > 定位信息”。查看告警上报的实例的IP地址。 2.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例 > NodeManager（对应上报告警实例IP地址）”，单击图表区域右上角的下拉菜单，选择“定制 > 资源”，勾选“NodeManager内存使用率”。查看堆内存使用情况。 3.查看NodeManager使用的堆内存是否已达到NodeManager设定的最大堆内存的95%(默认阈值)。是，执行步骤4。否，执行步骤6。 4.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置 > NodeManager > 系统”。将“GCOPTS”参数的值根据实际情况调大。保存配置，并重启NodeManager实例。说明集群中的NodeManager实例数量和NodeManager内存大小的对应关系参考如下：集群中的NodeManager实例数据达到100，NodeManager实例的JVM参数建议配置为：Xms2G Xmx4G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到200，NodeManager实例的JVM参数建议配置为：Xms4G Xmx4G XX:NewSize512M XX:MaxNewSize1G。集群中的NodeManager实例数据达到500以上，NodeManager实例的JVM参数建议配置为：Xms8G Xmx8G XX:NewSize1G XX:MaxNewSize2G。 5.观察界面告警是否清除。是，处理完毕。否，执行步骤6。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18018 NodeManager堆内存使用率超过阈值
ALM-18019 JobHistoryServer非堆内存使用率超过阈值
告警ID 告警级别是否自动清除 18019 重要是

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18019 JobHistoryServer非堆内存使用率超过阈值

天翼云最新活动

安全隔离版OpenClaw

OpenClaw云服务器专属“龙虾“套餐低至1.5折起

天翼云新春焕新季

云主机开年特惠28.8元/年，0元秒杀等你来抢！

云上钜惠

爆款云主机全场特惠，2核4G只要1.8折起！

中小企业服务商合作专区

国家云助力中小企业腾飞，高额上云补贴重磅上线

出海产品促销专区

爆款云主机低至2折，高性价比，不限新老速来抢购！

天翼云奖励推广计划

加入成为云推官，推荐新用户注册下单得现金奖励

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

物理机 DPS

多活容灾服务

GPU云主机

轻量型云主机

弹性高性能计算 E-HPC

天翼云CTyunOS系统

AI Store

模型推理服务

应用托管

推荐文档

重置管理员密码

创建手动备份