云主机开年特惠28.8元/年,0元秒杀等你来抢!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 天翼云新春焕新季 NEW 云主机开年特惠28.8元/年,0元秒杀等你来抢!
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      天翼云门户网址_相关内容
      • ALM-14028 待补齐的块数超过阈值
        告警ID 告警级别 是否自动清除 14028 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14028 待补齐的块数超过阈值
      • ALM-16002 Hive SQL执行成功率低于阈值
        检查HDFS、Yarn、ZooKeeper等是否正常 8.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务”。 9.在服务列表查看HDFS、Yarn、ZooKeeper等服务是否正常。 是,执行步骤12。 否,执行步骤10。 10.查看告警界面的相关告警,参照对应告警帮助进行处理。 11.输入正确的HQL语句,观察命令是否正确执行。 是,执行步骤12。 否,执行步骤13。 12.等待一分钟,查看本告警是否清除。 是,处理结束。 否,执行步骤13。 收集故障信息 13.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 14.在“服务”中勾选待操作集群的如下节点信息。 Mapreduce Hive 15.单击右上角的设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 16.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16002 Hive SQL执行成功率低于阈值
      • ALM-16004 Hive服务不可用
        检查Hive与ZooKeeper、HDFS、Yarn和DBService之间的网络连接 17.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Hive”。 18.单击“实例”。 显示HiveServer实例列表。 19.单击“HiveServer”行的“主机名称”。 弹出HiveServer主机状态页面。 20.记录“基本信息”下的IP地址。 21.以omm用户通过步骤20获取的IP地址登录HiveServer所在的主机。 22.执行ping命令,查看HiveServer所在主机与ZooKeeper、HDFS、Yarn和DBService服务所在主机的网络连接是否正常。(获取ZooKeeper、HDFS、Yarn和DBService服务所在主机的IP地址的方式和获取HiveServer IP地址的方式相同。) 是,执行步骤25。 否,执行步骤23。 23.联系网络管理员恢复网络。 24.在告警列表中,查看“Hive服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤25。 收集故障信息 25.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 26.在“服务”中勾选待操作集群的如下节点信息。 ZooKeeper HDFS Yarn DBService Hive 27.单击右上角的设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 28.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16004 Hive服务不可用
      • ALM-24015 Flume MonitorServer证书文件已过期
        本章节主要介绍ALM24015 Flume MonitorServer证书文件已过期的告警。 告警解释 MonitorServer每隔一个小时健康检查时,检查当前系统中的证书文件是否已过期。如果服务端证书已过期,产生该告警。服务端证书恢复的有效期内,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24015 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 可能原因 MonitorServer证书文件已过期。 处理步骤 查看告警信息 1.登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM24015 MonitorServer证书文件已过期 > 定位信息”。查看告警上报的实例的IP地址。 检查系统中合法证书文件的有效期,重新生成证书文件 2.以root用户登录告警所在节点主机,并执行su omm切换用户。 3.执行以下命令进入MonitorServer证书目录。 cd ${BIGDATAHOME}/FusionInsightPorter/install/FusionInsightFlume/flume/conf 4.执行以下命令查看用户证书的生效时间与失效时间,查看目前时间是否在有效期内。 openssl x509 noout text in mssChat.crt 是,执行步骤9。 否,执行步骤5。 5.执行以下命令进入Flume脚本目录。 cd ${BIGDATAHOME}/FusionInsightPorter/install/FusionInsightFlume/flume/bin 6.执行以下命令重新生成证书,等待1小时,观察此告警是否被清除。 sh geneJKS.sh m sKitty12@ n cKitty12@ 是,执行步骤8。 否,执行步骤7。 7.使用omm用户在Flume实例产生告警的节点,重复执行步骤5~步骤6,等待1小时,观察此告警是否被清除。 是,执行步骤8。 否,执行步骤9。 8.查看系统在定时检查时是否会再次产生此告警。 是,执行步骤9。 否,处理完毕。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24015 Flume MonitorServer证书文件已过期
      • ALM-14023 总副本预留磁盘空间所占比率超过阈值
        可能原因 告警阈值配置不合理。 HDFS集群配置的磁盘空间不足。 HDFS的业务访问量太大,超过了已有DataNode的负载能力。 处理步骤 查看阈值设置是否合理 1.在FusiongInsight Manager首页,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS > 磁盘 > 总副本预留磁盘空间所占比率”,查看该告警阈值设置是否合理(默认90%为合理值,用户可以根据自己的实际需求调节)。 是,执行步骤4。 否,执行步骤2。 2.根据实际服务的使用情况,在“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS > 磁盘 > 总副本预留磁盘空间所单击率”页面单击“修改”更改阈值。 3.等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤4。 查看是否有磁盘空间不足告警 4.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”查看是否存在告警“ALM14001 HDFS磁盘空间使用率超过阈值”或“ALM14002 DataNode磁盘空间使用率超过阈值”。 是,执行步骤5。 否,执行步骤7。 5.参考“ALM14001 HDFS磁盘空间使用率超过阈值”或“ALM14002 DataNode磁盘空间使用率超过阈值”进行处理,查看对应告警是否清除。 是,步骤6。 否,步骤7。 6.等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤7。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14023 总副本预留磁盘空间所占比率超过阈值
      • ALM-14027 DataNode磁盘故障
        修改磁盘权限 4.在“运维 > 告警 > 告警”页面,查看该告警的“定位信息”和“附加信息”,获取该告警上报的故障磁盘位置信息。 5.以root用户登录上报告警的节点,进入故障磁盘所在目录,使用ll命令查看该故障磁盘的权限是否711,用户是否为 omm 。 是,执行步骤8。 否,执行步骤6。 6.修改故障磁盘权限,如故障磁盘为data1,则执行以下命令: chown omm:wheel data1 chmod 711 data1 7.在Manager告警列表中,单击该告警“操作”列下面的“清除”,手动清除告警。然后选择“集群 > 服务 > HDFS > 实例”勾选该DataNode,选择“更多 > 重启实例”,等待5分钟,查看是否有新的告警上报。 否,处理完毕。 是,执行步骤8。 收集故障信息 8.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 9.在“服务”中勾选待操作集群的“HDFS”和“OMS”。 10.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后20分钟,单击“下载”。 11.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统不会自动清除此告警,需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14027 DataNode磁盘故障
      • ALM-13000 ZooKeeper服务不可用
        检查网络状态 5. 在ZooKeeper实例所在Linux节点使用ping命令,看能否ping通其他ZooKeeper实例所在节点的主机名。 是,执行步骤9。 否,执行步骤6。 6. 修改“/etc/hosts”中的IP信息,添加主机名与IP地址的对应关系。 7. 再次执行ping命令,查看能否在该ZooKeeper实例节点ping通其他ZooKeeper实例节点的主机名。 是,执行步骤8。 否,执行步骤23。 8. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤9。 检查KrbServer 服务状态(普通模式集群跳过此步骤) 9. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务”。 10. 查看KrbServer服务是否正常。 是,执行步骤13。 否,执行步骤11。 11. 参考“ALM25500 KrbServer服务不可用”进行处理,查看KrbServer服务是否能够恢复。 是,执行步骤12。 否,执行步骤23。 12. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤13。 检查ZooKeeper服务实例状态 13. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > quorumpeer”。 14. 查看ZooKeeper各实例是否正常。 是,执行步骤18。 否,执行步骤15。 15. 选中运行状态不为良好的实例,选择“更多 > 重启实例”。 16. 查看实例重启后运行状态是否为良好。 是,执行步骤17。 否,执行步骤18。 17. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤18。 检查磁盘状态 18. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > quorumpeer”查看ZooKeeper实例所在的各节点主机信息。 19. 在FusionInsight Manager首页,单击“主机”。 20. 在“磁盘”列,检查ZooKeeper实例所在的各节点数据磁盘空间是否不足(使用率超过百分之80)。 是,执行步骤21。 否,执行步骤23。 21. 参考“ALM12017 磁盘容量不足”进行处理,对磁盘进行扩容。 22. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤23。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13000 ZooKeeper服务不可用
      • ALM-13001 ZooKeeper可用连接数不足
        收集故障信息 15. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 16. 在“服务”中勾选待操作集群的“ZooKeeper”。 17. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 18. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13001 ZooKeeper可用连接数不足
      • ALM-24012 Flume证书文件已过期
        告警ID 告警级别 是否自动清除 24012 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24012 Flume证书文件已过期
      • ALM-24008 Flume Server非堆内存使用率超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24008 Flume Server非堆内存使用率超过阈值
      • ALM-24006 Flume Server堆内存使用率超过阈值
        本章节主要介绍ALM24006 Flume Server堆内存使用率超过阈值的告警。 告警解释 系统每60秒周期性检测Flume服务堆内存使用状态,当连续10次检测到Flume实例堆内存使用率超出阈值(最大内存的95%)时产生该告警,堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24006 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 堆内存溢出可能导致服务崩溃。 可能原因 该节点Flume实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Flume堆内存使用率超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > Agent > Flume堆内存使用率”,单击“确定”。 3.查看Flume使用的堆内存是否已达到Flume设定的阈值(默认值为最大堆内存的95%)。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 配置”,选择“全部配置”,选择“Flume > 系统”。将“GCOPTS”参数中“Xmx”的值根据实际情况调大,并单击“保存”,单击“确定”。 说明 出现此告警时,说明当前flume server设置的堆内存无法满足当前数据传输所需的堆内存,建议堆内存调整为: channel capacity 最大单条数据大小通道个数,但xmx参数值不能超过节点剩余内存。 5.重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24006 Flume Server堆内存使用率超过阈值
      • ALM-24005 Flume传输数据异常
        检查Flume Sink配置的IP所在节点与故障节点的网络状态 9.本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“type avro”关键字确认Flume Sink是否是avro类型。 是,执行10。 否,执行步骤13。 10.以root用户登录故障节点所在主机,执行ping Flume Sink配置的IP地址命令查看对端主机是否可以ping通。 是,执行步骤13。 否,执行步骤11。 11.联系网络管理员恢复网络。 12.等待一段时间后,在告警列表中,查看告警是否清除。 是,处理完毕。 否, 执行步骤13。 收集故障信息 13.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 14.在“服务”框中勾选待操作集群的“Flume”。 15.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 16.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24005 Flume传输数据异常
      • ALM-24003 Flume Client连接中断
        检查Flume Client端的配置 5.以root用户登录到告警定位参数中描述的Flume ClientIP所在主机。 6.执行cd Flume 客户端安装目录 /fusioninsightflume1.9.0/conf/ 命令,进入Flume的配置目录。 7.执行cat properties.properties命令,查看当前的Flume Client配置文件。 8.根据Flume Agent的配置说明检查“properties.properties”的配置是否有误。 是,执行步骤9。 否,执行步骤11。 9.修改“properties.properties”配置文件。 查看告警是否已清除 10.查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行步骤11。 收集故障信息 11.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 12.在“服务”框中勾选待操作集群的“Flume”。 13.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 14.使用传输工具,收集Flume Client端“/var/log/Bigdata/flumeclient”下的日志。 15.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24003 Flume Client连接中断
      • ALM-24001 Flume Agent异常
        检查Flume Agent的目录权限 9.以root用户登录故障节点IP所在主机。 10.执行以下命令,进入Flume Agent的安装目录。 cd Flume 客户端安装目录/fusioninsightflume1.9.0/conf/ 11.执行ls al R命令,检查所有文件的所有者是否均是Flume Agent运行用户。 是,执行步骤12。 否,使用chown命令修改文件所有者为Flume Agent运行用户。 检查Flume Agent配置 12.执行cat properties.properties grep spooldir以及cat properties.properties grep TAILDIR命令,确认Flume Source是否是spooldir类型或TAILDIR类型,若任意一个命令有返回值,则为spooldir类型或TAILDIR类型。 是,执行步骤13。 否,执行步骤17。 13.查看数据监控目录是否存在。 是,执行步骤15。 否,执行步骤14。 说明 查看spooldir监控目录,执行命令:cat properties.properties grep spoolDir 查看TAILDIR监控目录,执行命令:cat properties.properties grep parentDir 14.指定服务器上用户自定义已经存在的数据监控目录。 15.查看Flume Agent运行用户对步骤13所指定的监控目录是否有可读可写可执行权限。 是,执行步骤17。 否,执行步骤16。 说明 使用Flume运行用户进入监控目录,若可以创建文件,这说明Flume运行用户是否对该监控目录具有可读可写可执行权限。 16.执行“chmod 777 Flume 监控目录 ”命令赋予Flume Agent运行用户对步骤13监控目录的可读可写可执行权限。 17.确认Flume Sink对接组件是否处于安全模式。 是,执行步骤18。 否,执行步骤23。 说明 若用户业务配置文件properties.properties的sink为hdfs sink、hbase sink,当配置文件中包含有keytab时,则Flume Sink对接组件处于安全模式。 若用户业务配置文件properties.properties的sink为kafka sink,当配置参数.security.protocol的值为SASLPLAINTEXT或为SASLSSL时,则Flume Sink对接的Kafka处于安全模式。 18.使用“ll ketab 路径命令 ”查看配置文件“.kerberosKeytab”参数所指的keytab认证路径是否存在。 是,执行步骤20。 否,执行步骤19。 说明 ketab路径查看方式:cat properties.properties grep keytab 19.将步骤18中kerberosKeytab参数的值指定为用户自定的keytab路径,执行步骤21。 20.执行步骤18查看Flume Agent运行用户是否有访问keytab认证文件的权限,若返回为keytab路径,则表示有权限,否则无权限。 是,执行步骤22。 否,执行步骤21。 21.执行“chmod 755 ketab 文件 ”赋予步骤19中所指定的keytab文件的可读权限, 并重启Flume进程。 22.查看告警列表中该告警是否已清除。 是,处理完毕。 否,执行步骤23。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24001 Flume Agent异常
      • ALM-24000 Flume服务不可用
        告警ID 告警级别 是否自动清除 24000 紧急 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24000 Flume服务不可用
      • ALM-20002 Hue服务不可用
        本章节主要介绍ALM20002 Hue服务不可用的告警。 告警解释 系统按60秒周期性检测Hue服务状态。当Hue服务不可用时产生该告警。 当Hue服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 20002 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 系统无法提供数据加载,查询,提取服务。 可能原因 Hue服务所依赖内部服务KrbServer故障。 Hue服务所依赖内部服务DBService故障。 与DBService连接的网络异常。 处理步骤 检查KrbServer服务是否正常 1.在FusionInsight Manager界面,选择“集群 > 待操作集群的名称 > 服务”,在服务列表中查看“KrbServer”的“运行状态”是否为“良好”。 是,执行步骤4。 否,执行步骤2。 2.手动重启KrbServer服务。 3.等待几分钟。检查“Hue服务不可用”告警是否恢复。 是,处理完毕。 否,执行步骤4。 检查DBService是否正常 4.登录FusionInsight Manager界面,选择“集群 > 待操作集群的名称 > 服务”。 5.在服务列表中查看DBService服务运行状态是否为“良好”。 是,执行步骤8。 否,执行步骤6。 6.重启DBService服务。 说明 重启服务需要输入FusionInsight Manager管理员密码。 7.等待几分钟。检查“Hue服务不可用”告警是否恢复。 是,操作结束。 否,执行步骤8。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-20002 Hue服务不可用
      • ALM-14006 HDFS文件数超过阈值
        检查系统中是否有不需要的文件 6. 以root用户登录HDFS客户端。执行cd命令进入客户端安装目录,然后执行source bigdataenv命令设置环境变量。 如果集群采用安全版本,要进行安全认证。 执行kinit hdfs命令,按提示输入密码。向管理员获取密码。 7. 执行hdfs dfs ls 文件或目录路径命令,检查该目录下的文件或目录是否是可以删除的无用文件。 是,执行步骤8。 否,执行步骤9。 8. 执行hdfs dfs rm r 文件或目录路径命令。确认删除无用的文件后,等待文件在垃圾站中超过保留时间后(NameNode的配置参数“fs.trash.interval”指定了垃圾站中数据的保留时间),检查本告警是否清除。 说明 说明 删除文件为高危操作,在执行操作前请务必确认对应文件是否不再需要。 是,处理完毕。 否,执行步骤 9。 收集故障信息 9. 在FusionInsight Manager首页,单击“运维 > 日志 > 下载”。 10. 在“服务”中勾选待操作集群的“HDFS”。 11. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 12. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 NameNodeJVM参数配置规则 NameNode JVM参数“GCOPTS”默认值为: Xms2G Xmx4G XX:NewSize128M XX:MaxNewSize256M XX:MetaspaceSize128M XX:MaxMetaspaceSize128M XX:+UseConcMarkSweepGC XX:+CMSParallelRemarkEnabled XX:CMSInitiatingOccupancyFraction65 XX:+PrintGCDetails Dsun.rmi.dgc.client.gcInterval0x7FFFFFFFFFFFFFE Dsun.rmi.dgc.server.gcInterval0x7FFFFFFFFFFFFFE XX:OmitStackTraceInFastThrow XX:+PrintGCDateStamps XX:+UseGCLogFileRotation XX:NumberOfGCLogFiles10 XX:GCLogFileSize1M Djdk.tls.ephemeralDHKeySize3072 Djdk.tls.rejectClientInitiatedRenegotiationtrue Djava.io.tmpdir${Bigdatatmpdir} NameNode文件数量和NameNode使用的内存大小成比例关系,文件对象变化时请修改默认值中的“Xms2G Xmx4G XX:NewSize128M XX:MaxNewSize256M”。参考值如下表所示。 文件对象数量 参考值 10,000,000 Xms6G Xmx6G XX:NewSize512M XX:MaxNewSize512M 20,000,000 Xms12G Xmx12G XX:NewSize1G XX:MaxNewSize1G 50,000,000 Xms32G Xmx32G XX:NewSize3G XX:MaxNewSize3G 100,000,000 Xms64G Xmx64G XX:NewSize6G XX:MaxNewSize6G 200,000,000 Xms96G Xmx96G XX:NewSize9G XX:MaxNewSize9G 300,000,000 Xms164G Xmx164G XX:NewSize12G XX:MaxNewSize12G
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14006 HDFS文件数超过阈值
      • ALM-14008 DataNode堆内存使用率超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14008 DataNode堆内存使用率超过阈值
      • ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
        告警ID 告警级别 是否自动清除 19019 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
      • ALM-14003 丢失的HDFS块数量超过阈值
        检查DataNode实例 1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HDFS>实例”。 2. 查看所有DataNode实例的状态是否为“良好”。 是,执行步骤11。 否,执行步骤12。 3. 重启DataNode实例,查看能否成功启动。 是,执行步骤4。 否,执行步骤 5。 4. 选择“运维 > 告警 > 告警”,查看该告警是否恢复。 是,处理完毕。 否,执行步骤 5。 删除被破坏的文件 5. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HDFS>NameNode(主)”,在HDFS的WebUI页面,查看列出的丢失块信息。 注意 如果有丢块,WebUI上会有一行红字显示。 admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。 6. 用户确认丢失块所在的文件是否有用。 说明 MapReduce任务运行过程中在“/mrhistory”、“/tmp/hadoopyarn”、“/tmp/logs”这三个目录中生成的文件不属于有用文件。 是,执行步骤7。 否,执行步骤8。 7. 用户确认丢失块所在的文件是否已备份。 是,执行步骤 8。 否,执行步骤 11。 8. 以root用户登录HDFS客户端,用户密码为安装前用户自定义,请咨询系统管理员。执行如下命令: 安全模式: cd 客户端安装目录 source bigdataenv kinit hdfs 普通模式: suomm cd 客户端安装目录 source bigdataenv 9. 在节点客户端执行 hdfs fsck / delete ,删除丢失文件。如果丢失块所在的文件为有用文件,需要再次写入文件,恢复数据。 说明 删除文件为高危操作,在执行操作前请务必确认对应文件是否不再需要。 10. 选择“运维 > 告警 > 告警”,查看该告警是否恢复。 是,处理完毕。 否,执行步骤 11。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14003 丢失的HDFS块数量超过阈值
      • ALM-19018 HBase合并队列超出阈值
        告警ID 告警级别 是否自动清除 19018 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19018 HBase合并队列超出阈值
      • ALM-19008 HBase服务进程堆内存使用率超出阈值
        本章节主要介绍ALM19008 HBase服务进程堆内存使用率超出阈值的告警。 告警解释 系统每30秒周期性检测HBase服务堆内存使用状态,当检测到HBase服务堆内存使用率超出阈值(最大内存的90%)时产生该告警。 说明 若集群启用了多实例功能且安装了多个HBase服务,请根据“定位信息”的“服务名”值来确定具体产生告警的HBase服务。例如HBase1服务不可用,则“定位信息”中显示服务名HBase1,处理步骤中的操作对象也应由HBase调整为HBase1。 告警属性 告警ID 告警级别 是否自动清除 19008 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase可用内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点HBase服务堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“19008”的告警,查看“定位信息”中的角色名并确定实例的IP地址。 告警上报的角色是HMaster,执行步骤2。 告警上报的角色是RegionServer,执行步骤3。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HBase > 实例”,单击告警上报的HMaster,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存 > HMaster堆内存使用率与直接内存使用率统计”,单击“确定”,查看HBase服务进程使用的堆内存是否已达到HBase服务进程设定的最大堆内存的90%。 是,执行步骤4。 否,执行步骤6。 3.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HBase > 实例”,单击告警上报的RegionServer,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存 > RegionServer堆内存使用率与直接内存使用率统计”,单击“确定”,查看HBase服务进程使用的堆内存是否已达到HBase服务进程设定的最大堆内存的90%。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HBase > 配置”,单击“全部配置”, 选择“HMaster/RegionServer > 系统”,将“GCOPTS”参数中“Xmx”的值参考以下说明进行调大。 说明 a.HMaster的GC参数配置建议 建议“Xms”和“Xmx”设置成相同的值,这样可以避免JVM动态调整堆内存大小时影响性能。 调整“XX:NewSize”大小的时候,建议把其设置成和“XX:MaxNewSize”相同,均为“Xmx”大小的1/8。 当HBase集群规模越大、Region数量越多时,可以适当调大HMaster的GCOPTS参数,配置建议如下:Region总数小于10万个,“Xmx”设置为4G;超过10万个,“Xmx”设置为不小于6G;超过10万时,每增加35000个Region,增加2G的“Xmx”,整体的“Xmx”的大小不超过32G。 b.RegionServer的GC参数配置建议 建议“Xms”和“Xmx”设置成相同的值,这样可以避免JVM动态调整堆内存大小时影响性能。 调整“XX:NewSize”大小的时候,建议把其设置为“Xmx”大小的1/8。 RegionServer需要的内存一般比HMaster要大。在内存充足的情况下,堆内存可以相对设置大一些。 根据机器的内存大小设置“Xmx”大小:机器内存>200G,“Xmx”设置为32G;128G<机器内存<200G,“Xmx”设置为16G;机器内存<128G,“Xmx”设置为8G。“Xmx”配置为32G,可支持单RegionServer节点2000个Region,200个热点Region。 5.观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19008 HBase服务进程堆内存使用率超出阈值
      • ALM-13010 配置quota的目录Znode使用率超出阈值
        收集故障信息 7. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 8. 在“服务”中勾选待操作集群的“ZooKeeper”。 9. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 10. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13010 配置quota的目录Znode使用率超出阈值
      • ALM-14001 HDFS磁盘空间使用率超过阈值
        告警ID 告警级别 是否自动清除 14001 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14001 HDFS磁盘空间使用率超过阈值
      • ALM-19007 HBase GC时间超出阈值
        本章节主要介绍ALM19007 HBase GC时间超出阈值的告警。 告警解释 系统每60秒周期性检测HBase服务的老年代GC时间,当检测到HBase服务的老年代GC时间超出阈值(默认连续3次检测超过5秒)时产生该告警。 在FusionInsight Manager首页,用户可通过选择“运维 > 告警 > 阈值设置> HBase > GC > GC中回收old区所花时长”修改阈值。 当HBase服务的老年代GC时间小于或等于阈值时,告警恢复。 说明 若集群启用了多实例功能且安装了多个HBase服务,请根据“定位信息”的“服务名”值来确定具体产生告警的HBase服务。例如HBase1服务不可用,则“定位信息”中显示服务名HBase1,处理步骤中的操作对象也应由HBase调整为HBase1。 告警属性 告警ID 告警级别 是否自动清除 19007 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 老年代GC时间超出阈值,会影响到HBase数据的读写。 可能原因 该节点HBase实例内存使用率过大,或配置的堆内存不合理,或HBase存在大量的IO操作,导致进程GC频繁。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19007 HBase GC时间超出阈值
      • ALM-19000 HBase服务不可用
        检查HDFS服务状态 5.在告警列表中,查看是否有“ALM14000 HDFS服务不可用”告警产生。 是,执行步骤6。 否,执行步骤8。 6.参考“ALM14000 HDFS服务不可用”的处理步骤处理该故障。 7.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤8。 8.在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HDFS”,查看HDFS“安全模式”是否为“ON”。 是,执行步骤9。 否,执行步骤12。 9.以root用户登录HDFS客户端。执行cd命令进入客户端安装目录,然后执行 source bigdataenv 。 如果集群采用安全版本,要进行安全认证。预先向管理员获取hdfs用户的密码,执行kinit hdfs命令,按提示输入密码。 10.执行以下命令手动退出安全模式。 hdfs dfsadmin safemode leave 11.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤12。 检查HBase服务状态 12.在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HBase”。 13.查看2个HMaster的状态是否为一“主”一“备”。 是,执行步骤15。 否,执行步骤14。 14.单击“实例”,选择非主状态的HMaster实例,单击“更多 > 重启实例”重启HMaster,再次查看2个HMaster的状态是否为一“主”一“备”。 是,执行步骤15。 否,执行步骤21。 15.选择“集群 > 待操作集群的名称 > 服务 > HBase > HMaster(主)”,进入HMaster的WebUI页面。 说明 admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。 16.查看Region Servers下是否存在至少一个RegionServer。 是,执行步骤17。 否,执行步骤21。 17.查看“Tables > System Tables”,如下图,查看该标签的“Table Name”列下是否存在“hbase:meta”、“hbase:namespace”和“hbase:acl”。 是,执行步骤18。 否,执行步骤19。 HBase系统表 18.如上图,分别单击“hbase:meta”、“hbase:namespace”和“hbase:acl”超链接,查看所有页面是否能正常打开。如果页面能正常打开,说明表都正常。 是,执行步骤19。 否,执行步骤23。 说明 由于普通模式下的HBase默认未开启ACL权限控制,只有在手动开启ACL权限控制后才会存在“hbase:acl”表,需要检查该表,否则不需要检查该表。 19.查看HMaster的启动状态。 如下图在“Tasks” 下有“RUNNING”的状态表示HMaster正在启动,“State”列有HMaster处于“RUNNING”状态的时间。如下图中的“COMPLETE”状态表示HMaster启动完成。 查看HMaster是否持续了很长一段时间处于“RUNNING”状态。 HMaster正在启动的状态 HMaster启动完成的状态 是,执行步骤20。 否,执行步骤21。 20.查看HMaster页面是否有hbase:meta长时间处于“Region in Transition”的状态。 详见下图:Region处于Region in Transition的状态 是,执行步骤21。 否,执行步骤22。 21.确认在不影响业务的情况下,登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HBase > 更多 > 重启服务”,输入密码,单击“确定”。 是,执行步骤22。 否,执行步骤23。 22.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤23。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19000 HBase服务不可用
      • ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
        本章节主要介绍ALM13003 ZooKeeper进程垃圾回收(GC)时间超过阈值。 告警解释 系统每60秒周期性检测ZooKeeper进程的垃圾回收(GC)占用时间,当检测到ZooKeeper进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 13003 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper进程的垃圾回收时间过长,可能影响该ZooKeeper进程正常提供服务。 可能原因 该节点ZooKeeper实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ZooKeeper进程垃圾回收(GC)时间超过阈值”所在行的下拉菜单。查看告警上报的实例的IP地址。 2. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 实例 >quorumpeer”。单击图表区域右上角的下拉菜单,选择“定制 > GC”,勾选“ZooKeeper垃圾回收(GC)时间”,单击“确定”,查看ZooKeeper每分钟的垃圾回收时间统计情况。 3. 查看ZooKeeper每分钟的垃圾回收时间统计值是否大于告警阈值(默认12秒)。 是,执行步骤 4。 否,执行步骤 8。 4. 请先排查应用程序是否存在内存泄露等问题。 5. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 配置 > 全部配置 > quorumpeer > 系统”。将“GCOPTS”参数值根据实际情况调大。 说明 Xmx一般配置为ZooKeeper数据容量的2倍,如果ZooKeeper容量达到2GB,则GCOPTS建议配置为: Xms4G Xmx4G XX:NewSize512M XX:MaxNewSize512M XX:MetaspaceSize64M XX:MaxMetaspaceSize64M XX:CMSFullGCsBeforeCompaction1 6. 保存配置,并重启ZooKeeper服务。 7. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤 8。 收集故障信息 8. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 9. 在“服务”中勾选待操作集群的“ZooKeeper”。 10. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 11. 请联系运维人员,并发送已收集的故障日志信息。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
      • ALM-13004 ZooKeeper堆内存使用率超过阈值
        本章节主要介绍ALM13004 ZooKeeper堆内存使用率超过阈值。 告警解释 系统每60秒周期性检测ZooKeeper服务堆内存使用状态,当检测到ZooKeeper实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 13004 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点ZooKeeper实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率 1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ZooKeeper堆内存使用率超过阈值”所在行的下拉菜单,在定位信息中确认告警上报的主机名所在的节点IP地址。 2. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 实例”,单击对应IP地址的“角色”列的“quorumpeer”。单击图表区域右上角的下拉菜单,选择“定制 > CPU 和内存”,勾选“ZooKeeper堆内存与直接内存使用率”,单击“确定”,查看堆内存使用情况。 3. 查看ZooKeeper使用的堆内存是否已达到ZooKeeper设定的最大堆内存的95%。 是,执行步骤 4。 否,执行步骤 7。 4. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 配置 > 全部配置 > quorumpeer > 系统”。将GCOPTS参数中Xmx的值根据实际情况调大,具体调整方案如下: a.单击“实例”,选择对应IP地址的“角色”列的“quorumpeer”,单击图表区域右上角的下拉菜单,选择“定制 > CPU 和内存”,勾选“ZooKeeper堆内存与直接内存资源状况”,单击“确定”,查看ZooKeeper实际使用的堆内存大小。 b.根据堆内存实际使用量,修改GCOPTS参数中的Xmx值,该值一般为Zookeeper数据容量的2倍。例如当前ZooKeeper堆内存使用达到2G,则GCOPTS建议配置为“Xms4G Xmx4G XX:NewSize512MXX:MaxNewSize512M XX:MetaspaceSize64M XX:MaxMetaspaceSize64MXX:CMSFullGCsBeforeCompaction1”。 5. 保存配置,并重启ZooKeeper服务。 6. 观察界面告警是否清除? 是,处理完毕。 否,执行步骤7。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13004 ZooKeeper堆内存使用率超过阈值
      • ALM-18026 Yarn上运行失败的任务数超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18026 Yarn上运行失败的任务数超过阈值
      • ALM-18023 Yarn任务挂起数超过阈值
        调整监控阈值 6.在FusionInsight Manager界面,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 任务 > 正在挂起的任务”,根据实际需要,适当增加该告警的监控阈值。 7.等待5分钟,查看该告警是否消除。 是,处理完毕。 否,执行步骤8。 收集故障信息 8.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 9.在“服务”中勾选待操作集群的“Yarn”。 10.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 11.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18023 Yarn任务挂起数超过阈值
      • ALM-18025 Yarn被终止的任务数超过阈值
        告警ID 告警级别 是否自动清除 18025 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18025 Yarn被终止的任务数超过阈值
      • ALM-12073 cep资源异常
        本章节主要介绍 ALM12073 cep资源异常。 告警解释 HA每60秒周期性检测Manager的cep资源。当HA连续2次检测到cep资源异常时,产生该告警。 当HA检测到cep资源正常后,告警恢复。 cep资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的cep资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 告警属性 告警ID 告警级别 是否自动清除 12073 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Manager主备倒换。 cep进程持续重启,可能会导致监控数据异常。 可能原因 cep进程异常。 处理步骤 检查cep进程是否异常 1.打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机名称。 2.以root用户登录该告警的主机地址。 3.执行命令 su omm ,执行 sh ${BIGDATAHOME}/omserver/OMS/workspace0/ha/module/hacom/script/statusha.sh,查询当前HA管理的cep资源状态是否正常(单机模式下面,cep资源为normal状态;双机模式下,cep资源在主节点为normal状态,在备节点为stopped状态。)。 是,执行步骤6。 否,执行步骤4。 4.执行命令 vi $BIGDATALOGHOME/omm/oms/cep/cep.log 和 vi $BIGDATALOGHOME/omm/oms/cep/scriptlog/cepha.log ,查看ha的cep资源日志,是否有关键字“ERROR”,分析日志查看资源异常原因并修复。 5.等待五分钟,查看告警是否恢复。 是,操作结束。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12073 cep资源异常
      • 1
      • ...
      • 247
      • 248
      • 249
      • 250
      • 251
      • ...
      • 257
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      天翼云新春焕新季

      云主机开年特惠28.8元/年,0元秒杀等你来抢!

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      多活容灾服务

      轻量型云主机

      弹性高性能计算 E-HPC

      训推服务

      AI Store

      公共算力服务

      模型推理服务

      应用托管

      智算一体机

      推荐文档

      如何选择云主机?

      安全防护

      删除实例

      产品定义

      MySQL

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号