活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      天翼云云监控ces_相关内容
      • ALM-45277 RangerAdmin堆内存使用率超过阈值
        告警ID 告警级别 是否自动清除 45277 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45277 RangerAdmin堆内存使用率超过阈值
      • ALM-45278 RangerAdmin直接内存使用率超过阈值
        本章节主要介绍ALM45278 RangerAdmin直接内存使用率超过阈值的告警。 告警解释 系统每60秒周期性检测RangerAdmin服务直接内存使用状态,当连续5次检测到RangerAdmin实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当RangerAdmin直接内存使用率小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45278 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 直接内存溢出可能导致服务崩溃。 可能原因 节点RangerAdmin实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM45278 RangerAdmin直接内存使用率超过阈值”,检查该告警的“定位信息”,查看告警上报的实例主机名。 1. 在FusionInsight Manager首页,选择“集群 > 服务 > Ranger > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存 > RangerAdmin直接内存使用率”,单击“确定”。 2. 查看RangerAdmin使用的直接内存是否已达到RangerAdmin设定的阈值(默认值为最大直接内存的80%)。 是,执行步骤4。 否,执行步骤6。 3. 在FusionInsight Manager首页,选择“集群 > 服务 > Ranger > 实例 > RangerAdmin > 实例配置”,单击“全部配置”,选择“RangerAdmin > 系统”。将“GCOPTS”参数中“XX:MaxDirectMemorySize”的值根据实际情况调大,并保存配置。 说明 出现此告警时,说明当前RangerAdmin设置的直接内存无法满足当前RangerAdmin进程所需的直接内存,建议根据步骤2查看“RangerAdmin直接内存使用率”,调整“GCOPTS”参数中“XX:MaxDirectMemorySize”的值为“RangerAdmin使用的直接内存大小”的两倍(可根据实际业务场景进行修改)。 4. 重新启动受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45278 RangerAdmin直接内存使用率超过阈值
      • ALM-45275 Ranger服务不可用
        本章节主要介绍ALM45275 Ranger服务不可的告警。 告警解释 告警模块按180秒周期检测Ranger服务状态,当检测到Ranger服务异常时,系统产生此告警。 当系统检测到Ranger服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45275 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 可能原因 Ranger服务所依赖内部服务DBService故障。 RangerAdmin角色实例异常。 处理步骤 检查DBService进程状态 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,查看系统是否上报“ALM27001 DBService服务不可用”告警。 是,执行步骤2。 否,执行步骤3。 1. 参考“ALM27001 DBService服务不可用”告警帮助指导对DBService服务状态异常进行处理,待DBService告警消除后,查看“Ranger服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤3。 检查所有RangerAdmin实例 以omm用户登录RangerAdmin实例所在节点,执行 ps efgrep "procrangeradmin" 命令查看当前节点是否存在RangerAdmin进程。 是,执行步骤5。 否,重启RangerAdmin故障实例或Ranger服务,执行步骤4。 2. 在告警列表中查看“Ranger服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤5。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45275 Ranger服务不可用
      • ALM-25000 LdapServer服务不可用
        检查LdapServer进程是否正常 6.选择“运维 > 告警 > 告警”,在告警列表中查看是否有“进程故障”告警产生。 是,执行步骤7。 否,执行步骤10。 7.查看告警信息中的服务名和主机名是否和LdapServer服务名和主机名一致。 是,执行步骤8。 否,执行步骤10。 8.按“ALM12007 进程故障”提供的步骤处理该告警。 9.在告警列表中查看“LdapServer服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤10。 收集故障信息 10.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 11.在“服务”中勾选待操作集群的“LdapServer”。 12.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 13.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-25000 LdapServer服务不可用
      • ALM-27007 数据库进入只读模式
        show defaulttransactionreadonly; defaulttransactionreadonly on (1 row) 是,执行步骤4。 否,执行步骤13。 4. 执行以下命令,打开“dbservice.properties”文件: source $DBSERVERHOME/.dbserviceprofile vi ${DBSERVICESOFTWAREDIR}/tools/dbservice.properties 5. 修改“gaussdbreadonlyauto”的值为“OFF”,默认为“ON”。 6. 执行以下命令,打开“postgresql.conf”文件: vi ${DBSERVICEDATADIR }/postgresql.conf 7. 删除“defaulttransactionreadonly on”。 8. 执行以下命令,使配置生效: gsctl reload D ${DBSERVICEDATADIR } 9. 登录FusionInsight Manager,选择“运维 > 告警 > 告警”。单击告警“数据库进入只读模式”所在行右侧“操作”列中的“清除”,在弹出窗口中单击“确定”。手动清除该告警。 10. 以omm用户登录DBServer主管理节点,执行以下命令查看数据目录磁盘空间下超过500MB的文件,检查该目录下是否有误写入的大文件存在。 source $DBSERVERHOME/.dbserviceprofile find "$DBSERVICEDATADIR"/../ type f size +500M 是,执行步骤11。 否,执行步骤13。 11. 根据实际情况处理误写入的文件。 12. 登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > DBService”,在“概览”页面查看“数据目录磁盘空间使用率”图表,检查数据目录磁盘空间使用率是否低于80%。 是,处理完毕。 否,执行步骤13。 收集故障信息 13. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 14. 在“服务”中勾选待操作集群的“DBService”。 15. 设置日志收集的主机,可选项,默认所有主机。 16. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 17. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27007 数据库进入只读模式
      • ALM-29005 Impalad JDBC连接数超过阈值
        本章节主要介绍ALM29005 Impalad JDBC连接数超过阈值的告警。 告警解释 以30s为周期检测连接到该Impalad节点的客户端连接数,当检测到的连接数超过自定义阈值(默认60)时,系统产生此告警。 当系统检测到客户端连接数减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29005 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 Trigger Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 后续新建立客户端连接可能会阻塞甚至失败。 可能原因 该Impalad服务维护的客户端链接过多,或者阈值设定的太小。 处理步骤 1. 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > 连接数 > 已经连接到Impalad进程的JDBC数量” ,检查设置的阈值大小。 2. 检查连接到当前Impalad的JDBC应用数,并关闭闲置的应用,观察告警是否自动清除。 是,处理完毕。 否,执行步骤3,修改并发客户端连接数。 3. 在FusionInsight Manager首页,选择“集群 > Impala > 配置 > 全部配置 > Impalad > 自定义”,增加自定义参数 feservicethreads,该参数默认值64,请按照需要修改该值,单击“保存”按钮保存配置。 4. 在所有客户端的查询任务都执行完成后,选择“实例”页签,勾选所有“Impalad”实例并重启。 5. 重启完成后告警将消失,请重新运行使用JDBC方式连接Impalad的应用。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-29005 Impalad JDBC连接数超过阈值
      • ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
        检查znode数量配额和使用量 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“19015”的告警,查看“附加信息”中的阈值。 2.以root用户登录HBase客户端。执行以下命令进入客户端安装目录: cd 客户端安装目录 然后执行以下命令设置环境变量: source bigdataenv 如果集群采用安全版本,要执行以下命令进行安全认证: kinit hbase 按提示输入密码(向管理员获取密码)。 3.执行hbase zkcli命令进入ZooKeeper客户端,然后执行命令listquota /hbase查看对应HBase服务的znode数量配额,其中命令中的znode根目录为对应HBase服务的参数“zookeeper.znode.parent”所指定。下图标注所示即为当前HBase服务根znode的数量配额。 4.执行命令getusage /hbase/splitWAL查看该znode的数量使用情况,查看返回结果的“ Node count ”跟znode数量配额的比值是否接近告警的阈值。 是,执行步骤5。 否,执行步骤6。 5.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看是否存在“告警ID”为“12007”、“19000”或者“19013”且“定位信息”中的“服务名”为当前HBase服务的告警。 是,单击对应告警右侧的“查看帮助”并按照帮助文档进行处理,执行步骤8。 否,执行步骤9。 6.执行命令getusage /hbase/replication查看该znode的数量使用情况,查看返回结果的“ Node count ”跟znode数量配额的比值是否接近告警的阈值。 是,执行步骤7。 否,执行步骤9。 7.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看是否存在“告警ID”为“19006”并且“定位信息”中的“服务名”为当前HBase服务的告警。 是,单击对应告警右侧的“查看帮助”并按照帮助文档进行处理,执行步骤8。 否,执行步骤9。 8.观察界面告警是否清除。 是,处理完毕。 否,执行步骤9。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
      • ALM-14012 Journalnode数据不同步
        本章节主要介绍ALM14012 Journalnode数据不同步的告警。 告警解释 在主NameNode节点上,系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步,系统产生该告警。 当Journalnode数据同步5分钟后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14012 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 NameService名 产生告警的NameService名称。 对系统的影响 当一个JournalNode节点工作状态异常时,其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时,NameNode将无法工作,导致HDFS服务不可用。 可能原因 JournalNode实例不存在(被删除或被迁移)。 JournalNode实例未启动或已停止。 JournalNode实例运行状态异常。 JournalNode节点的网络不可达。 处理步骤 查看JournalNode实例是否启动 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,在告警列表中单击此告警。 2.查看“定位信息”,获取告警产生的JournalNode节点IP地址。 3..选择“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”,在实例列表中查看告警节点上是否存在JournalNode实例。 是,执行步骤5。 否,执行步骤4。 4.选择“运维 > 告警 > 告警”,在告警列表中单击此告警“操作”栏中的“清除”,在弹出窗口中单击“确定”,处理完毕。 5.单击该JournalNode实例,查看其“配置状态”是否为“已同步”。 是,执行步骤8。 否,执行步骤6。 6.勾选该JournalNode实例,单击“启动实例”,等待启动完成。 7.等待5分钟后,查看告警是否清除。 是,处理完毕。 否,执行步骤15。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14012 Journalnode数据不同步
      • ALM-25006 Sssd服务异常
        收集故障信息 13.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 14.在“服务”中勾选待操作集群的“LdapClient”。 15.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 16.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-25006 Sssd服务异常
      • ALM-14018 NameNode非堆内存使用率超过阈值
        本章节主要介绍 ALM14018 NameNode非堆内存使用率超过阈值的告警。 告警解释 系统每30秒周期性检测HDFS NameNode非堆内存使用率,并把实际的HDFS NameNode非堆内存使用率和阈值相比较。HDFS NameNode非堆内存使用率指标默认提供一个阈值范围。当HDFS NameNode非堆内存使用率超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。 当HDFS NameNode非堆内存使用率小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14018 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS NameNode非堆内存使用率过高,会影响HDFS的数据读写性能。 可能原因 HDFS NameNode配置的非堆内存不足。 处理步骤 清除无用文件 1.以root用户登录HDFS客户端。执行cd命令进入客户端安装目录,然后执行 source bigdataenv 。 如果集群采用安全版本,要进行安全认证。 执行kinit hdfs命令,按提示输入密码。向管理员获取密码。 2.执行hdfs dfs rm r 文件或目录路径命令,确认删除无用的文件。 3.检查本告警是否恢复。 是,处理完毕。 否,执行步骤4。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14018 NameNode非堆内存使用率超过阈值
      • ALM-45736 Guardian服务不可用
        检查所有TokenServer实例 以omm用户登录TokenServer实例所在节点,执行 ps efgrep "rangerobsservice" 命令查看当前节点是否存在TokenServer进程。 是,执行步骤5。 否,重启TokenServer故障实例,执行步骤4。 2. 在告警列表中查看“Guardian服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤5。 收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 3. 在“服务”框中勾选待操作集群的“Guardian”。 4. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 5. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45736 Guardian服务不可用
      • ALM-45425 ClickHouse服务不可用
        参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45425 ClickHouse服务不可用
      • ALM-27006 数据目录磁盘空间使用率超过阈值
        本章节主要介绍 ALM27006 数据目录磁盘空间使用率超过阈值的告警。 告警解释 系统每30秒周期性检查DBServer主节点的数据目录磁盘空间使用率,并把实际数据目录磁盘空间使用率和阈值相比较,当数据目录磁盘空间使用率连续5次(可配置,默认值为5)超过设定阈值时,系统将产生此告警。数据目录磁盘空间使用率的阈值设为80%(可配置,默认值为80%)。 平滑次数可配置,当平滑次数为1,数据磁盘目录空间使用率小于或等于阈值时,该告警恢复;当平滑次数大于1,数据磁盘目录空间使用率小于阈值的90%时,该告警恢复。 告警属性 告警ID 告警级别 是否自动清除 27006 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 设备分区名 产生告警的磁盘分区。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程不可用。 当数据目录磁盘空间使用率超过90%时,数据库进入只读模式并发送告警“数据库进入只读模式”,业务数据丢失。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27006 数据目录磁盘空间使用率超过阈值
      • ALM-28001 Spark服务不可用(2.x及以前版本)
        告警ID 告警级别 可自动清除 28001 致命 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-28001 Spark服务不可用(2.x及以前版本)
      • ALM-18013 ResourceManager直接内存使用率超过阈值
        收集故障信息 9.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 10.在“服务”中勾选待操作集群的“ResourceManager”。 11.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 12.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18013 ResourceManager直接内存使用率超过阈值
      • ALM-27004 DBService主备数据不同步
        告警ID 告警级别 是否自动清除 27004 紧急 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27004 DBService主备数据不同步
      • ALM-18009 JobHistoryServer堆内存使用率超过阈值
        处理步骤 检查内存使用量 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > MapReduce JobHistoryServer堆内存使用率超过阈值 > 定位信息”。查看告警上报的实例主机名。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Mapreduce > 实例 > JobHistoryServer(对应上报告警实例主机名)”,单击图表区域右上角的下拉菜单,选择“定制 > 资源”,勾选“JobHistoryServer堆内存使用百分比统计”。查看堆内存使用情况。 3.查看JobHistoryServer使用的堆内存是否已达到JobHistoryServer设定的最大堆内存的95%。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Mapreduce > 配置 > 全部配置 > JobHistoryServer > 系统”。将“GCOPTS”参数根据实际情况调大,并单击“保存”,单击“确定”并进重启。 说明 历史任务数10000和JobHistoryServer内存的对应关系如下: Xms30G Xmx30G XX:NewSize1G XX:MaxNewSize2G 5.观察界面告警是否清除? 是,处理完毕。 否,执行步骤6。 收集故障信息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”中勾选待操作集群的如下节点信息。 NodeAgent Mapreduce 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18009 JobHistoryServer堆内存使用率超过阈值
      • ALM-27001 DBService服务不可用
        收集故障信息 19. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 20. 在“服务”中勾选待操作集群的“DBService”和“NodeAgent”。 21. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 22. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27001 DBService服务不可用
      • ALM-27003 DBService主备节点间心跳中断
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Local DBService HA Name 本地DBService HA名称。 Peer DBService HA Name 对端DBService HA名称。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27003 DBService主备节点间心跳中断
      • ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
      • ALM-14026 DataNode块数超过阈值
        告警ID 告警级别 是否自动清除 14026 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14026 DataNode块数超过阈值
      • ALM-14029 单副本的块数超过阈值
        告警ID 告警级别 是否自动清除 14029 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14029 单副本的块数超过阈值
      • ALM-19006 HBase容灾同步失败
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19006 HBase容灾同步失败
      • ALM-24007 Flume Server直接内存使用率超过阈值
        收集故障息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”框中勾选待操作集群的“Flume”。 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24007 Flume Server直接内存使用率超过阈值
      • ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
        告警ID 告警级别 是否自动清除 45280 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
      • ALM-45279 RangerAdmin非堆内存使用率超过阈值
        收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 5. 在“服务”框中勾选待操作集群的“Ranger”。 6. 单击右上角的 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 7. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45279 RangerAdmin非堆内存使用率超过阈值
      • ALM-24013 Flume MonitorServer证书文件非法或已损坏
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24013 Flume MonitorServer证书文件非法或已损坏
      • ALM-45176 OBS元数据接口调用成功率低于阈值
        告警ID 告警级别 是否自动清除 45176 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45176 OBS元数据接口调用成功率低于阈值
      • ALM-45178 OBS数据写操作接口调用成功率低于阈值
        本章节主要介绍ALM45178 OBS数据写操作接口调用成功率低于阈值的告警。 告警解释 系统每30秒周期性检测OBS数写操作接口调用成功率是否小于阈值,当检测到小于所设置阈值时就会产生该告警 。 当OBS数据写操作接口调用成功率大于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除 45178 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS数据写操作接口调用成功率小于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 检查堆内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS数据写操作接口调用成功率低于阈值”,查看“定位信息”中的角色名并确定实例的IP地址。 1. 选择“集群 > 待操作集群的名称 > 服务 > meta > 实例 > meta(对应上报告警实例IP地址)”。单击图表区域右上角的下拉菜单,选择“定制”,在“OBS数据写操作”中勾选“OBS数据写操作接口调用成功率”,单击“确定”,查看OBS数据写操作接口调用成功率,确定是否有接口调用成功率低于阈值。 是,执行步骤3。 否,执行步骤5。 2. 选择“集群 > 待操作集群的名称 > 运维 > 告警 > 阈值设置 > meta > OBS数据写操作接口调用成功率”,将阈值或平滑次数参数的值根据实际情况调小。 3. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤5。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45178 OBS数据写操作接口调用成功率低于阈值
      • ALM-44006 Presto Worker进程垃圾收集时间超出阈值
        收集故障信息 1.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 2.在“服务”中勾选操作集群的“Presto ”,单击“确定”。 3.单击右上角的 设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后30分钟,单击“下载”。 4.请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-44006 Presto Worker进程垃圾收集时间超出阈值
      • ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
        告警ID 告警级别 可自动清除 44005 严重 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
      • ALM-43021 IndexServer2x进程直接内存使用超出阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43021 IndexServer2x进程直接内存使用超出阈值
      • 1
      • ...
      • 306
      • 307
      • 308
      • 309
      • 310
      • ...
      • 320
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云信创专区

      “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      弹性云主机 ECS

      GPU云主机

      轻量型云主机

      弹性伸缩服务 AS

      弹性高性能计算 E-HPC

      天翼云CTyunOS系统

      训推服务

      模型推理服务

      人脸检测

      推荐文档

      产品规格

      篡改告警分析

      支持的监控指标

      创建消费组

      启动会议

      删除云安备本地主机

      域名的种类

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号