云主机开年特惠28.8元/年,0元秒杀等你来抢!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 天翼云新春焕新季 NEW 云主机开年特惠28.8元/年,0元秒杀等你来抢!
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      天翼云云电脑_相关内容
      • ALM-19008 HBase服务进程堆内存使用率超出阈值
        本章节主要介绍ALM19008 HBase服务进程堆内存使用率超出阈值的告警。 告警解释 系统每30秒周期性检测HBase服务堆内存使用状态,当检测到HBase服务堆内存使用率超出阈值(最大内存的90%)时产生该告警。 说明 若集群启用了多实例功能且安装了多个HBase服务,请根据“定位信息”的“服务名”值来确定具体产生告警的HBase服务。例如HBase1服务不可用,则“定位信息”中显示服务名HBase1,处理步骤中的操作对象也应由HBase调整为HBase1。 告警属性 告警ID 告警级别 是否自动清除 19008 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase可用内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点HBase服务堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“19008”的告警,查看“定位信息”中的角色名并确定实例的IP地址。 告警上报的角色是HMaster,执行步骤2。 告警上报的角色是RegionServer,执行步骤3。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HBase > 实例”,单击告警上报的HMaster,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存 > HMaster堆内存使用率与直接内存使用率统计”,单击“确定”,查看HBase服务进程使用的堆内存是否已达到HBase服务进程设定的最大堆内存的90%。 是,执行步骤4。 否,执行步骤6。 3.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HBase > 实例”,单击告警上报的RegionServer,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存 > RegionServer堆内存使用率与直接内存使用率统计”,单击“确定”,查看HBase服务进程使用的堆内存是否已达到HBase服务进程设定的最大堆内存的90%。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HBase > 配置”,单击“全部配置”, 选择“HMaster/RegionServer > 系统”,将“GCOPTS”参数中“Xmx”的值参考以下说明进行调大。 说明 a.HMaster的GC参数配置建议 建议“Xms”和“Xmx”设置成相同的值,这样可以避免JVM动态调整堆内存大小时影响性能。 调整“XX:NewSize”大小的时候,建议把其设置成和“XX:MaxNewSize”相同,均为“Xmx”大小的1/8。 当HBase集群规模越大、Region数量越多时,可以适当调大HMaster的GCOPTS参数,配置建议如下:Region总数小于10万个,“Xmx”设置为4G;超过10万个,“Xmx”设置为不小于6G;超过10万时,每增加35000个Region,增加2G的“Xmx”,整体的“Xmx”的大小不超过32G。 b.RegionServer的GC参数配置建议 建议“Xms”和“Xmx”设置成相同的值,这样可以避免JVM动态调整堆内存大小时影响性能。 调整“XX:NewSize”大小的时候,建议把其设置为“Xmx”大小的1/8。 RegionServer需要的内存一般比HMaster要大。在内存充足的情况下,堆内存可以相对设置大一些。 根据机器的内存大小设置“Xmx”大小:机器内存>200G,“Xmx”设置为32G;128G<机器内存<200G,“Xmx”设置为16G;机器内存<128G,“Xmx”设置为8G。“Xmx”配置为32G,可支持单RegionServer节点2000个Region,200个热点Region。 5.观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19008 HBase服务进程堆内存使用率超出阈值
      • ALM-13010 配置quota的目录Znode使用率超出阈值
        收集故障信息 7. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 8. 在“服务”中勾选待操作集群的“ZooKeeper”。 9. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 10. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13010 配置quota的目录Znode使用率超出阈值
      • ALM-14001 HDFS磁盘空间使用率超过阈值
        告警ID 告警级别 是否自动清除 14001 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14001 HDFS磁盘空间使用率超过阈值
      • ALM-19007 HBase GC时间超出阈值
        本章节主要介绍ALM19007 HBase GC时间超出阈值的告警。 告警解释 系统每60秒周期性检测HBase服务的老年代GC时间,当检测到HBase服务的老年代GC时间超出阈值(默认连续3次检测超过5秒)时产生该告警。 在FusionInsight Manager首页,用户可通过选择“运维 > 告警 > 阈值设置> HBase > GC > GC中回收old区所花时长”修改阈值。 当HBase服务的老年代GC时间小于或等于阈值时,告警恢复。 说明 若集群启用了多实例功能且安装了多个HBase服务,请根据“定位信息”的“服务名”值来确定具体产生告警的HBase服务。例如HBase1服务不可用,则“定位信息”中显示服务名HBase1,处理步骤中的操作对象也应由HBase调整为HBase1。 告警属性 告警ID 告警级别 是否自动清除 19007 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 老年代GC时间超出阈值,会影响到HBase数据的读写。 可能原因 该节点HBase实例内存使用率过大,或配置的堆内存不合理,或HBase存在大量的IO操作,导致进程GC频繁。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19007 HBase GC时间超出阈值
      • ALM-19000 HBase服务不可用
        检查HDFS服务状态 5.在告警列表中,查看是否有“ALM14000 HDFS服务不可用”告警产生。 是,执行步骤6。 否,执行步骤8。 6.参考“ALM14000 HDFS服务不可用”的处理步骤处理该故障。 7.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤8。 8.在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HDFS”,查看HDFS“安全模式”是否为“ON”。 是,执行步骤9。 否,执行步骤12。 9.以root用户登录HDFS客户端。执行cd命令进入客户端安装目录,然后执行 source bigdataenv 。 如果集群采用安全版本,要进行安全认证。预先向管理员获取hdfs用户的密码,执行kinit hdfs命令,按提示输入密码。 10.执行以下命令手动退出安全模式。 hdfs dfsadmin safemode leave 11.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤12。 检查HBase服务状态 12.在FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HBase”。 13.查看2个HMaster的状态是否为一“主”一“备”。 是,执行步骤15。 否,执行步骤14。 14.单击“实例”,选择非主状态的HMaster实例,单击“更多 > 重启实例”重启HMaster,再次查看2个HMaster的状态是否为一“主”一“备”。 是,执行步骤15。 否,执行步骤21。 15.选择“集群 > 待操作集群的名称 > 服务 > HBase > HMaster(主)”,进入HMaster的WebUI页面。 说明 admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。 16.查看Region Servers下是否存在至少一个RegionServer。 是,执行步骤17。 否,执行步骤21。 17.查看“Tables > System Tables”,如下图,查看该标签的“Table Name”列下是否存在“hbase:meta”、“hbase:namespace”和“hbase:acl”。 是,执行步骤18。 否,执行步骤19。 HBase系统表 18.如上图,分别单击“hbase:meta”、“hbase:namespace”和“hbase:acl”超链接,查看所有页面是否能正常打开。如果页面能正常打开,说明表都正常。 是,执行步骤19。 否,执行步骤23。 说明 由于普通模式下的HBase默认未开启ACL权限控制,只有在手动开启ACL权限控制后才会存在“hbase:acl”表,需要检查该表,否则不需要检查该表。 19.查看HMaster的启动状态。 如下图在“Tasks” 下有“RUNNING”的状态表示HMaster正在启动,“State”列有HMaster处于“RUNNING”状态的时间。如下图中的“COMPLETE”状态表示HMaster启动完成。 查看HMaster是否持续了很长一段时间处于“RUNNING”状态。 HMaster正在启动的状态 HMaster启动完成的状态 是,执行步骤20。 否,执行步骤21。 20.查看HMaster页面是否有hbase:meta长时间处于“Region in Transition”的状态。 详见下图:Region处于Region in Transition的状态 是,执行步骤21。 否,执行步骤22。 21.确认在不影响业务的情况下,登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HBase > 更多 > 重启服务”,输入密码,单击“确定”。 是,执行步骤22。 否,执行步骤23。 22.等待几分钟后检查本告警是否恢复。 是,处理完毕。 否,执行步骤23。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19000 HBase服务不可用
      • ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
        本章节主要介绍ALM13003 ZooKeeper进程垃圾回收(GC)时间超过阈值。 告警解释 系统每60秒周期性检测ZooKeeper进程的垃圾回收(GC)占用时间,当检测到ZooKeeper进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 13003 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper进程的垃圾回收时间过长,可能影响该ZooKeeper进程正常提供服务。 可能原因 该节点ZooKeeper实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ZooKeeper进程垃圾回收(GC)时间超过阈值”所在行的下拉菜单。查看告警上报的实例的IP地址。 2. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 实例 >quorumpeer”。单击图表区域右上角的下拉菜单,选择“定制 > GC”,勾选“ZooKeeper垃圾回收(GC)时间”,单击“确定”,查看ZooKeeper每分钟的垃圾回收时间统计情况。 3. 查看ZooKeeper每分钟的垃圾回收时间统计值是否大于告警阈值(默认12秒)。 是,执行步骤 4。 否,执行步骤 8。 4. 请先排查应用程序是否存在内存泄露等问题。 5. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 配置 > 全部配置 > quorumpeer > 系统”。将“GCOPTS”参数值根据实际情况调大。 说明 Xmx一般配置为ZooKeeper数据容量的2倍,如果ZooKeeper容量达到2GB,则GCOPTS建议配置为: Xms4G Xmx4G XX:NewSize512M XX:MaxNewSize512M XX:MetaspaceSize64M XX:MaxMetaspaceSize64M XX:CMSFullGCsBeforeCompaction1 6. 保存配置,并重启ZooKeeper服务。 7. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤 8。 收集故障信息 8. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 9. 在“服务”中勾选待操作集群的“ZooKeeper”。 10. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 11. 请联系运维人员,并发送已收集的故障日志信息。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
      • ALM-13004 ZooKeeper堆内存使用率超过阈值
        本章节主要介绍ALM13004 ZooKeeper堆内存使用率超过阈值。 告警解释 系统每60秒周期性检测ZooKeeper服务堆内存使用状态,当检测到ZooKeeper实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 13004 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点ZooKeeper实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率 1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ZooKeeper堆内存使用率超过阈值”所在行的下拉菜单,在定位信息中确认告警上报的主机名所在的节点IP地址。 2. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 实例”,单击对应IP地址的“角色”列的“quorumpeer”。单击图表区域右上角的下拉菜单,选择“定制 > CPU 和内存”,勾选“ZooKeeper堆内存与直接内存使用率”,单击“确定”,查看堆内存使用情况。 3. 查看ZooKeeper使用的堆内存是否已达到ZooKeeper设定的最大堆内存的95%。 是,执行步骤 4。 否,执行步骤 7。 4. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 配置 > 全部配置 > quorumpeer > 系统”。将GCOPTS参数中Xmx的值根据实际情况调大,具体调整方案如下: a.单击“实例”,选择对应IP地址的“角色”列的“quorumpeer”,单击图表区域右上角的下拉菜单,选择“定制 > CPU 和内存”,勾选“ZooKeeper堆内存与直接内存资源状况”,单击“确定”,查看ZooKeeper实际使用的堆内存大小。 b.根据堆内存实际使用量,修改GCOPTS参数中的Xmx值,该值一般为Zookeeper数据容量的2倍。例如当前ZooKeeper堆内存使用达到2G,则GCOPTS建议配置为“Xms4G Xmx4G XX:NewSize512MXX:MaxNewSize512M XX:MetaspaceSize64M XX:MaxMetaspaceSize64MXX:CMSFullGCsBeforeCompaction1”。 5. 保存配置,并重启ZooKeeper服务。 6. 观察界面告警是否清除? 是,处理完毕。 否,执行步骤7。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13004 ZooKeeper堆内存使用率超过阈值
      • ALM-18026 Yarn上运行失败的任务数超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18026 Yarn上运行失败的任务数超过阈值
      • ALM-18023 Yarn任务挂起数超过阈值
        调整监控阈值 6.在FusionInsight Manager界面,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 任务 > 正在挂起的任务”,根据实际需要,适当增加该告警的监控阈值。 7.等待5分钟,查看该告警是否消除。 是,处理完毕。 否,执行步骤8。 收集故障信息 8.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 9.在“服务”中勾选待操作集群的“Yarn”。 10.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 11.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18023 Yarn任务挂起数超过阈值
      • ALM-18025 Yarn被终止的任务数超过阈值
        告警ID 告警级别 是否自动清除 18025 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18025 Yarn被终止的任务数超过阈值
      • ALM-12073 cep资源异常
        本章节主要介绍 ALM12073 cep资源异常。 告警解释 HA每60秒周期性检测Manager的cep资源。当HA连续2次检测到cep资源异常时,产生该告警。 当HA检测到cep资源正常后,告警恢复。 cep资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的cep资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 告警属性 告警ID 告警级别 是否自动清除 12073 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Manager主备倒换。 cep进程持续重启,可能会导致监控数据异常。 可能原因 cep进程异常。 处理步骤 检查cep进程是否异常 1.打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机名称。 2.以root用户登录该告警的主机地址。 3.执行命令 su omm ,执行 sh ${BIGDATAHOME}/omserver/OMS/workspace0/ha/module/hacom/script/statusha.sh,查询当前HA管理的cep资源状态是否正常(单机模式下面,cep资源为normal状态;双机模式下,cep资源在主节点为normal状态,在备节点为stopped状态。)。 是,执行步骤6。 否,执行步骤4。 4.执行命令 vi $BIGDATALOGHOME/omm/oms/cep/cep.log 和 vi $BIGDATALOGHOME/omm/oms/cep/scriptlog/cepha.log ,查看ha的cep资源日志,是否有关键字“ERROR”,分析日志查看资源异常原因并修复。 5.等待五分钟,查看告警是否恢复。 是,操作结束。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12073 cep资源异常
      • ALM-18022 Yarn队列资源不足
        参数名称 参数含义 来源 产生告警的集群名称。 队列名 产生告警的队列名。 队列指标名 产生告警的队列指标名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18022 Yarn队列资源不足
      • ALM-18021 Mapreduce服务不可用
        检查Zookeeper服务状态 5.在FusionInsight Manager的告警列表中,查看是否有“ALM13000 ZooKeeper服务不可用”告警产生。 是,执行步骤6。 否,执行步骤7。 6.参考“ALM13000 ZooKeeper服务不可用”的处理步骤处理故障后,检查本告警是否恢复。 是,处理完毕。 否,执行步骤7。 检查HDFS服务状态 7.在FusionInsight Manager的告警列表中,查看是否有“ALM14000 HDFS服务不可用”告警产生。 是,执行步骤8。 否,执行步骤9。 8.参考“ALM14000 HDFS服务不可用”的处理步骤处理故障后,检查本告警是否恢复。 是,处理完毕。 否,执行步骤9。 检查Yarn服务状态 9.在FusionInsight Manager的告警列表中,查看是否有“ALM18000 Yarn服务不可用”告警产生。 是,执行步骤10。 否,执行步骤11。 10.参考“ALM18000 Yarn服务不可用”的处理步骤处理故障后,检查本告警是否恢复。 是,处理完毕。 否,执行步骤11。 收集故障信息 11.在主集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 12.在“服务”中勾选待操作集群的“Mapreduce”。 13.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 14.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18021 Mapreduce服务不可用
      • ALM-12084 ommdba密码过期
        参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12084 ommdba密码过期
      • ALM-12085 服务审计日志转储失败
        告警ID 告警级别 是否自动清除 12085 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12085 服务审计日志转储失败
      • ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
        本章节主要介绍ALM18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值的告警。 告警解释 系统每60秒周期性检测JobHistoryServer进程的垃圾回收(GC)占用时间,当检测到JobHistoryServer进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 18012 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 JobHistoryServer进程的垃圾回收时间过长,可能影响该JobHistoryServer进程正常提供服务。 可能原因 该节点JobHistoryServer实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值 > 定位信息”。查看告警上报的实例的IP地址。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > MapReduce > 实例 > JobHistoryServer(对应上报告警实例IP地址)”,单击图表区域右上角的下拉菜单,选择“定制 > 垃圾回收”,勾选“JobHistoryServer垃圾回收(GC)时间”。查看JobHistoryServer每分钟的垃圾回收时间统计情况。 3.查看JobHistoryServer每分钟的垃圾回收时间统计值是否大于告警阈值(默认12秒)。 是,执行步骤4。 否,执行步骤7。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Mapreduce > 配置 > 全部配置 > JobHistoryServer > 系统”。将“GCOPTS”参数根据实际情况调大。 说明 历史任务数10000和JobHistoryServer内存的对应关系如下: Xms30G Xmx30G XX:NewSize1G XX:MaxNewSize2G 5.保存配置,并重启JobHistoryServer实例。 6.观察界面告警是否清除。 是,处理完毕。 否,执行步骤7。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
      • ALM-12062 OMS参数配置同集群规模不匹配
        参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12062 OMS参数配置同集群规模不匹配
      • ALM-12066 节点间互信失效
        本章节主要介绍 ALM12066 节点间互信失效。 告警解释 系统每一个小时检查一次主OMS节点和其他Agent节点间的互信是否正常,如果存在互信失效的节点,则发送告警。待客户修复改问题,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除 12066 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 可能会导致管理面的一些操作异常。 可能原因 /etc/ssh/sshdconfig配置文件被破坏。 omm密码过期。 处理步骤 查看/etc/ssh/sshdconfig配置文件状态 1.打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看告警详情中涉及的主机列表。 2.以omm用户登录主OMS管理节点。 3.依次在告警详情中的节点执行ssh 命令:ssh host2 (host2为告警详情中OMS节点之外的其它节点),看是否连接失败。 是,执行步骤4。 否,执行步骤6。 4.打开host2主机上的“/etc/ssh/sshdconfig”配置文件,查看另外节点是否配置在AllowUsers 、DenyUsers等白名单或者黑名单中。 是,执行步骤5。 否,联系OS专家处理。 5.修改白名单或者黑名单设置,保证omm用户在白名单中或者不在黑名单中。然后持续一段时间观察告警是否清除。 是,操作结束。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12066 节点间互信失效
      • ALM-17005 Oozie非堆内存使用率超过阈值
        本章节主要介绍ALM17005 Oozie非堆内存使用率超过阈值的告警。 告警解释 系统每30秒周期性检测Oozie服务非堆内存使用状态,当检测到Oozie实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警。非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 17005 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 非堆内存溢出可能导致服务崩溃。 可能原因 该节点Oozie实例非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Oozie非堆内存使用率超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Oozie > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > 内存”中的“Oozie非堆内存使用率”,单击“确定”。 3.查看Oozie使用的非堆内存是否已达到Oozie设定的阈值(默认值为最大非堆内存的80%)。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务> Oozie > 配置”,选择“全部配置”,在搜索栏里搜索“GCOPTS”参数,查看参数中是否有“XX: MaxMetaspaceSize”。如果是,将“XX: MaxMetaspaceSize”的值根据实际情况调大。如果否,手动添加“XX: MaxMetaspaceSize”并将值设置成为“Xmx”大小的1/8。单击“保存”,单击“确定”。 说明 JDK1.8不再支持MaxPermSize。 Oozie的GC参数配置建议: 建议将“XX:MaxMetaspaceSize”值设置成为“Xmx”大小的1/8,比如:“Xmx”设置为2G时,“XX:MaxMetaspaceSize”设置为256M;“Xmx”设置为4G时,“XX:MaxMetaspaceSize”设置为512M。 5.重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-17005 Oozie非堆内存使用率超过阈值
      • ALM-12014 设备分区丢失
        本章节主要介绍ALM12014 设备分区丢失。 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区丢失(如由于设备拔出、设备离线、删除分区等原因)时,产生此告警。 此告警需要手动恢复。 告警属性 告警ID 告警级别 是否自动清除 12014 重要 否 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 挂载目录名 产生告警的挂载目录名。 设备分区名 产生告警的设备分区名。 对系统的影响 造成服务数据无法写入,业务系统运行不正常。 可能原因 硬盘被拔出 硬盘离线、硬盘坏道等故障。 处理步骤 1. 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的。 2. 从“定位信息”中获取“主机名”、“设备分区名”和“挂载目录名”。 3. 确认“主机名”节点的“设备分区名”对应的磁盘是否在对应服务器的插槽上。 是,执行步骤4。 否,执行步骤5。 4. 联系硬件工程师将故障磁盘在线拔出。 5. 以root用户登录发生告警的“主机名”节点,检查“/etc/fstab”文件中是否包含“挂载目录名”的行。 是,执行步骤6。 否,执行步骤7。 6. 执行vi /etc/fstab命令编辑文件,将包含“挂载目录名”的行删除。 7. 联系硬件工程师插入全新磁盘,具体操作请参考对应型号的硬件产品文档,如果原来故障的磁盘是RAID,那么请按照对应RAID卡的配置方法配置RAID。 8. 等待20~30分钟后执行mount命令(具体时间依赖磁盘的大小),检查磁盘是否已经挂载在目录“挂载目录名”上。 是,手动清除该告警,操作结束。 否,执行步骤9。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12014 设备分区丢失
      • ALM-12048 网络写包错误率超过阈值
        告警ID 告警级别 是否自动清除 12048 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12048 网络写包错误率超过阈值
      • ALM-16007 Hive GC 时间超出阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16007 Hive GC 时间超出阈值
      • ALM-12050 网络写吞吐率超过阈值
        告警ID 告警级别 是否自动清除 12050 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12050 网络写吞吐率超过阈值
      • ALM-12061 进程使用率超过阈值
        参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12061 进程使用率超过阈值
      • ALM-16006 Hive服务进程直接内存使用超出阈值
        告警ID 告警级别 是否自动清除 16006 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16006 Hive服务进程直接内存使用超出阈值
      • ALM-12042 关键文件配置异常
        收集故障信息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”中勾选“NodeAgent”,单击“确定”。 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 /etc/fstab 检查文件的检查标准 检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到。 检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。 /etc/hosts 检查文件的检查标准 通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。 a. “/etc/hosts”文件不存在。 b. 该主机的主机名不在文件中配置。 c. 该主机名对应的IP不唯一。 d. 该主机名对应的IP在ifconfig命令下的回显列表中不存在。 e. 该文件中存在一个IP对应多个主机名的情况。 /etc/ssh/sshdconfig 检查文件的检查标准 通过命令vi /etc/ssh/sshdconfig查看下面几个配置项是否正确。 a. “UseDNS”项必须配置为“no”。 b. “MaxStartups”必须配置为大于等于1000。 c. “PasswordAuthentication”和“ChallengeResponseAuthentication”两个配置项中必须至少有一项没有配置或者至少有一项配置为“yes”。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12042 关键文件配置异常
      • ALM-12038 监控指标转储失败
        告警ID 告警级别 是否自动清除 12038 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12038 监控指标转储失败
      • ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
        对系统的影响 发生连接数告警时,表示连接到HiveServer的session数过多,将会导致无法建立新的连接。 可能原因 连接HiveServer的客户端过多。 处理步骤 增加Hive最大连接数配置 1.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Hive > 配置”,选择“全部配置”。 2.然后查找“hive.server.session.control.maxconnections”,调大该配置项的数值。设该配置项的值为A,阈值为B,连接到HiveServer的session数为C,调整策略为A x B > C ,连接到HiveServer的session数可在Hive的监控界面查看监控指标“HiveServer的session数统计”。 3.查看本告警是否恢复。 是,操作结束。 否,执行步骤4。 收集故障信息 4.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 5.在“服务”中勾选待操作集群的“Hive”。 6.单击右上角的设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 7.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
      • ALM-14025 租户文件对象使用率超过阈值
        处理步骤 查看阈值设置是否合理 1.查看告警定位信息,获取上报告警的租户名称,租户目录。 2.在FusiongInsight Manager首页,单击“租户资源”页面选择上报告警的租户名称,单击“资源”,查看上报告警的租户目录所对应的文件数阈值配置设置是否合理(默认90%为合理值,用户可以根据自己的实际需求调节)。 是,执行步骤5。 否,执行步骤3。 3.根据该租户该目录文件数的实际使用情况,在“资源”页面单击“修改”修改或取消上报告警的租户目录所对应的文件数阈值配置。 4.等待1分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤5。 查看租户分配的文件对象数是否合理 5.在FusionInsight Manager首页,在“租户资源”页面选择上报告警的租户名称,单击“资源”,查看上报告警的租户目录所对应的文件目录数上限设置是否合理(根据该租户该目录实际业务情况而定)。 是,执行步骤8。 否,执行步骤6。 6.根据租户该目录的实际业务情况,在“资源”页面单击“修改”修改或取消上报告警的租户目录所对应的文件目录数上限。 7.等待1分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤8。 收集故障信息 8.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 9.在“服务”中勾选待操作集群的“HDFS”和Manager下的NodeAgent。 10.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后20分钟,单击“下载”。 11.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14025 租户文件对象使用率超过阈值
      • 鉴权策略
        服务 是否鉴权 是否支持开关鉴权 ClickHouse 鉴权 不支持修改 Flume 无鉴权 不支持修改 HBase 无鉴权 支持修改 HDFS 鉴权 支持修改 Hive 无鉴权 不支持修改 Hue 无鉴权 不支持修改 Kafka 无鉴权 不支持修改 Loader 无鉴权 不支持修改 Mapreduce 无鉴权 不支持修改 Oozie 鉴权 不支持修改 Spark2x 无鉴权 不支持修改 Storm 无鉴权 不支持修改 Yarn 无鉴权 支持修改 ZooKeeper 鉴权 支持修改
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        安全管理
        安全概述
        鉴权策略
      • 认证策略
        本章节主要介绍认证策略。 大数据平台用户需要对用户进行身份认证,防止不合法用户访问集群。安全模式或者普通模式的集群均提供认证能力。 安全模式 安全模式的集群统一使用Kerberos认证协议进行安全认证。Kerberos协议支持客户端与服务端进行相互认证,提高了安全性,可有效消除使用网络发送用户凭据进行模拟认证的安全风险。集群中由KrbServer服务提供Kerberos认证支持。 Kerberos用户对象 Kerberos协议中,每个用户对象即一个principal。一个完整的用户对象包含两个部分信息:用户名和域名。在运维管理或应用开发的场景中,需要在客户端认证用户身份后才能连接到集群服务端。系统操作运维与业务场景中主要使用的用户分为“人机”用户和“机机”用户。二者主要区别在于“机机”用户密码由系统随机生成。 Kerberos认证 Kerberos认证支持两种方式:密码认证及keytab认证。认证有效时间默认为24小时。 密码认证:通过输入用户正确的密码完成身份认证。主要在运维管理场景中使用“人机”用户进行认证,命令为kinit 用户名 。 keytab认证:keytab文件包含了用户principal和用户凭据的加密信息。使用keytab文件认证时,系统自动使用加密的凭据信息进行认证无需输入用户密码。主要在组件应用开发场景中使用“机机”用户进行认证。keytab文件也支持在kinit命令中使用。 普通模式 普通模式的集群不同组件使用原生开源的认证机制,不支持kinit认证命令。FusionInsight Manager(含DBService、KrbServer和LdapServer)使用的认证方式为用户名密码方式。组件使用的认证机制如下表所示。 表 组件认证方式一览表 服务 认证方式 ClickHouse simple认证 Flume 无认证 HBase WebUI:无认证 客户端:simple认证 HDFS WebUI:无认证 客户端:simple认证 Hive simple认证 Hue 用户名密码认证 Kafka 无认证 Loader WebUI:用户名密码认证 客户端:无认证 Mapreduce WebUI:无认证 客户端:无认证 Oozie WebUI:用户名密码认证 客户端:simple认证 Spark2x WebUI:无认证 客户端:simple认证 Storm 无认证 Yarn WebUI:无认证 客户端:simple认证 ZooKeeper simple认证 认证方式解释如下: “simple认证”:在客户端连接服务端的过程中,默认以客户端执行用户(例如操作系统用户“root”或“omm”)自动进行认证,管理员或业务用户不显式感知认证,不需要kinit完成认证过程。 “用户名密码认证”:使用集群中“人机”用户的用户名与密码进行认证。 “无认证”:默认任意的用户都可以访问服务端。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        安全管理
        安全概述
        认证策略
      • ALM-14017 NameNode直接内存使用率超过阈值
        告警ID 告警级别 是否自动清除 14017 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14017 NameNode直接内存使用率超过阈值
      • 1
      • ...
      • 260
      • 261
      • 262
      • 263
      • 264
      • ...
      • 269
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      天翼云新春焕新季

      云主机开年特惠28.8元/年,0元秒杀等你来抢!

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      轻量型云主机

      天翼云CTyunOS系统

      训推服务

      AI Store

      公共算力服务

      模型推理服务

      科研助手

      智算一体机

      人脸检测

      推荐文档

      产品续订

      文档下载

      入门教程②:windows磁盘挂载流程

      产品功能

      导入数据

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号