云主机开年特惠28.8元/年,0元秒杀等你来抢!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 天翼云新春焕新季 NEW 云主机开年特惠28.8元/年,0元秒杀等你来抢!
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      翼迁移_相关内容
      • ALM-24013 Flume MonitorServer证书文件非法或已损坏
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24013 Flume MonitorServer证书文件非法或已损坏
      • ALM-24014 Flume MonitorServer证书文件即将过期
        告警ID 告警级别 是否自动清除 24014 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24014 Flume MonitorServer证书文件即将过期
      • ALM-45176 OBS元数据接口调用成功率低于阈值
        告警ID 告警级别 是否自动清除 45176 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45176 OBS元数据接口调用成功率低于阈值
      • ALM-45178 OBS数据写操作接口调用成功率低于阈值
        本章节主要介绍ALM45178 OBS数据写操作接口调用成功率低于阈值的告警。 告警解释 系统每30秒周期性检测OBS数写操作接口调用成功率是否小于阈值,当检测到小于所设置阈值时就会产生该告警 。 当OBS数据写操作接口调用成功率大于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除 45178 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS数据写操作接口调用成功率小于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 检查堆内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS数据写操作接口调用成功率低于阈值”,查看“定位信息”中的角色名并确定实例的IP地址。 1. 选择“集群 > 待操作集群的名称 > 服务 > meta > 实例 > meta(对应上报告警实例IP地址)”。单击图表区域右上角的下拉菜单,选择“定制”,在“OBS数据写操作”中勾选“OBS数据写操作接口调用成功率”,单击“确定”,查看OBS数据写操作接口调用成功率,确定是否有接口调用成功率低于阈值。 是,执行步骤3。 否,执行步骤5。 2. 选择“集群 > 待操作集群的名称 > 运维 > 告警 > 阈值设置 > meta > OBS数据写操作接口调用成功率”,将阈值或平滑次数参数的值根据实际情况调小。 3. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤5。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45178 OBS数据写操作接口调用成功率低于阈值
      • ALM-44006 Presto Worker进程垃圾收集时间超出阈值
        收集故障信息 1.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 2.在“服务”中勾选操作集群的“Presto ”,单击“确定”。 3.单击右上角的 设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后30分钟,单击“下载”。 4.请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-44006 Presto Worker进程垃圾收集时间超出阈值
      • ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
        告警ID 告警级别 可自动清除 44005 严重 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
      • ALM-44004 Presto Coordinator资源组排队任务超过阈值
        参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-44004 Presto Coordinator资源组排队任务超过阈值
      • ALM-43021 IndexServer2x进程直接内存使用超出阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43021 IndexServer2x进程直接内存使用超出阈值
      • ALM-43022 IndexServer2x进程GC时间超出阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43022 IndexServer2x进程GC时间超出阈值
      • ALM-43018 JobHistory2x进程Full GC次数超出阈值
        本章节主要介绍ALM43018 JobHistory2x进程Full GC次数超出阈值的告警。 告警解释 系统每60秒周期性检测JobHistory2x进程的Full GC次数,当检测到JobHistory2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 > 阈值设置 > 待操作集群的名称 > Spark2x > GC次数 > JobHistory2x的Full GC次数”修改阈值。当JobHistory2x进程Full GC次数小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 43018 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC次数超出阈值,会影响JobHistory2x进程运行的性能,甚至造成JobHistory2x进程不可用。 可能原因 该节点JobHistory2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程Full GC频繁。 处理步骤 检查Full GC次数 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“43018”的告警,查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”,单击上报告警的JobHistory2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > JobHistory2x的Full GC次数”,单击“确定”,查看JobHistory2x进程的Full GC次数是否大于阈值(默认值12)。 是,执行步骤3。 否,执行步骤6。 2. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,选择“JobHistory2x > 默认”,将“SPARKDAEMONMEMORY”参数的默认值为4G,可根据如下原则进行调整:若偶现告警,可以按0.5倍速率调大。若告警次数比较频繁,可以按1倍速率调大。 3. 重启所有的JobHistory2x实例。 4. 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43018 JobHistory2x进程Full GC次数超出阈值
      • ALM-18016 ResourceManager非堆内存使用率超过阈值
        收集故障信息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”中勾选待操作集群的如下节点信息。 NodeAgent。 Yarn。 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18016 ResourceManager非堆内存使用率超过阈值
      • ALM-43017 JDBCServer2x进程Full GC次数超出阈值
        本章节主要介绍ALM43017 JDBCServer2x进程Full GC次数超出阈值的告警。 告警解释 系统每60秒周期性检测JDBCServer2x进程的Full GC次数,当检测到JDBCServer2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Spark2x > GC次数 > JDBCServer2x的Full GC次数”修改阈值。当JDBCServer2x进程Full GC次数小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 43017 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC次数超出阈值,会影响JDBCServer2x进程运行的性能,甚至造成JDBCServer2x进程不可用。 可能原因 该节点JDBCServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程Full GC频繁。 处理步骤 检查Full GC次数 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“43017”的告警,查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”,单击上报告警的JDBCServer2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > JDBCServer2x的Full GC次数”,单击“确定”,查看JDBCServer进程的Full GC次数是否大于阈值(默认12)。 是,执行步骤3。 否,执行步骤6。 2. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,选择“JDBCServer2x > 性能”,“SPARKDRIVERMEMORY”参数的默认值为4G,可根据如下原则进行调整:若偶现告警,可以按0.5倍速率调大。若告警次数比较频繁,可以按1倍速率调大。多业务量、高并发的情况可以考虑增加实例。 3. 重启所有的JDBCServer2x实例。 4. 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43017 JDBCServer2x进程Full GC次数超出阈值
      • ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
        告警ID 告警级别 是否自动清除 13005 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
      • ALM-13007 ZooKeeper客户端可用连接数不足
        本章节主要介绍 ALM13007 ZooKeeper客户端可用连接数不足。 告警解释 系统每60秒周期性检测ZooKeeper客户端连接到ZooKeeper服务器上的活动进程数,当检测到连接数目超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13007 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 ClientIP 客户端IP。 ServerIP 服务端IP。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 大量进程连接到ZooKeeper,导致ZooKeeper连接数被占满,无法对外正常提供服务。 可能原因 客户端大量进程连接到ZooKeeper,或者自定义阈值设置不合理。 处理步骤 检查客户端是否存在大量进程连接ZooKeeper的情况 1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ZooKeeper客户端可用连接数不足”所在行的下拉菜单,在定位信息中确认告警上报的主机名所在的节点IP地址。 2. 选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper”,单击“资源”进入资源页面,在表“连接数(按客户端IP)”中查看告警对应客户端IP的连接数是否较大。 是,执行步骤3。 否,执行步骤4。 3. 请确认并排查该客户端是否存在进程连接泄露的情况。 4. 单击“连接数(按客户端IP)”中的 ,进入“阈值设置”页面,单击“操作”下的“修改”。参考“集群 > 待操作集群的名称 > 服务 > ZooKeeper > 配置 > 全部配置 > quorumpeer”中参数“ maxClientCnxns”的值,调大阈值。 5. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤 6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13007 ZooKeeper客户端可用连接数不足
      • ALM-13008 ZooKeeper Znode数量使用率超出阈值
        本章节主要介绍 ALM13008 ZooKeeper Znode数量使用率超出阈值。 告警解释 系统每小时周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总数量超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13008 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 服务目录 产生告警的目录名称。 角色名 产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致ZooKeeper无法对外正常提供服务。 可能原因 往ZooKeeper数据目录空间写入大量数据。 自定义阈值设置不合理。 处理步骤 检查告警目录是否写入大量数据 1. 登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper”,单击“资源”,在精细化监控“资源使用(按二级Znode)”中单击“按Znode数量”,查看监控中是否有顶级Znode被写入较多数据。 是,执行步骤2。 否,执行步骤4。 2. 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,打开告警“ALM13008 ZooKeeper Znode数量使用率超出阈值”左侧下拉菜单,在“定位信息”的“服务目录”中获取告警的Znode路径。 3. 以集群用户登录ZooKeeper客户端,删除告警对应Znode下的无用数据。 4. 登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 配置 > 全部配置”,搜索“max.znode.count”,即ZooKeeper目录的数量配额的最大值,告警阈值为该值的80%,修改调大该配置项,单击“保存”,重启服务使配置生效。 5. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤 6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13008 ZooKeeper Znode数量使用率超出阈值
      • ALM-19011 RegionServer的Region数量超出阈值
        调整阈值 16.在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HBase > 单个RegionServer的Region数目”,选中目前应用的规则,单击“修改”查看目前的阈值设置是否合理。 如果过小,则根据集群实际情况,增大阈值,执行步骤17。 如果阈值设置合理,则执行步骤18。 17.观察该告警是否清除。 是,处理完毕。 否,执行步骤18。 系统扩容 18.对HBase集群扩容,增加节点,并在节点上增加RegionServer实例,然后按照“负载均衡”小节中,打开负载均衡功能并手动触发。 19.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务”,单击产生该告警的HBase服务实例,单击“HMaster(主)”,打开该HBase实例的WebUI,刷新页面查看Region分布是否均衡。 是,执行步骤20。 否,执行步骤21。 20.观察该告警是否清除。 是,处理完毕。 否,执行步骤21。 收集故障信息 21.在主备集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 22.在“服务”中勾选待操作集群的“HBase”。 23.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 24.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19011 RegionServer的Region数量超出阈值
      • ALM-16003 Background线程使用率超过阈值
        检查HiveServer background线程池容量 5.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Hive > 具体的HiveServer实例 ”,找到“Background线程数”与“Background线程使用率”监控信息。 6.查看“${BIGDATAHOME}/FusionInsightHD8.1.0.1/123HiveServer/etc/hivesite.xml”文件中“hive.server2.async.exec.threads”数量,适当增大该数值(如:增大原数值的20%)。 7.保存更新配置。 8.查看本告警是否恢复。 是,操作结束。 否,执行步骤9。 收集故障信息 9.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 10.在“服务”中勾选待操作集群的“Hive”。 11.单击右上角的设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 12.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16003 Background线程使用率超过阈值
      • ALM-16005 Hive服务进程堆内存使用超出阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16005 Hive服务进程堆内存使用超出阈值
      • ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Threshold 产生告警的阈值。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
      • ALM-12033 慢盘故障
        更换磁盘 18. 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 19. 查看该告警的详细信息,查看定位信息中对应的“主机名”字段和“磁盘名”字段的值,获取该告警上报的故障磁盘信息。 20. 更换硬盘。 21. 检查告警是否清除。 是,操作结束。 否,执行步骤22。 收集故障信息 22. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 23. 在“服务”中勾选“OMS”,单击“确定”。 24. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 25. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12033 慢盘故障
      • ALM-43013 JDBCServer2x进程GC时间超出阈值
        告警ID 告警级别 是否自动清除 43013 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43013 JDBCServer2x进程GC时间超出阈值
      • ALM-43012 JDBCServer2x进程直接内存使用超出阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43012 JDBCServer2x进程直接内存使用超出阈值
      • ALM-43010 JDBCServer2x进程堆内存使用超出阈值
        告警ID 告警级别 是否自动清除 43010 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43010 JDBCServer2x进程堆内存使用超出阈值
      • ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
        本章节主要介绍ALM43011 JDBCServer2x进程非堆内存使用超出阈值的告警。 告警解释 系统每30秒周期性检测JDBCServer2x进程非堆内存使用状态,当检测到JDBCServer2x进程非堆内存使用率超出阈值(最大内存的95%)时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 43011 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 JDBCServer2x进程非堆内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用。 可能原因 该节点JDBCServer2x进程非堆内存使用率过大,或配置的非堆内存不合理,导致使用率超过阈值。 处理步骤 检查非堆内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“ID”为“43011”的告警,查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”,单击告警上报的JDBCServer2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > JDBCServer2x内存使用率统计”,单击“确定”,查看JDBCServer2x进程使用的非堆内存是否已达到JDBCServer2x进程设定的最大非堆内存的阈值(默认95%)。 是,执行步骤3。 否,执行步骤7。 2. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”,单击告警上报的JDBCServer2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > JDBCServer2x进程的非堆内存统计” ,单击“确定”,根据告警产生时间,查看对应时间段的“JDBCServer2x进程使用的非堆内存”的值,获取最大值。 3. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,选择“JDBCServer2x > 性能”,将“spark.driver.extraJavaOptions”参数中XX:MaxMetaspaceSize的值根据如下原则调整:告警时间段内JDBCServer2x使用的非堆内存的最大值和“JDBCServer2x非堆内存使用率统计(JDBCServer2x)”阈值的比值。 说明 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 >待操作集群名称 > Spark2x > 内存 > JDBCServer2x非堆内存使用率统计(JDBCServer2x)”,可查看“阈值”。 4. 重启所有的JDBCServer2x实例。 5. 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行步骤7。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
      • ALM-12015 设备分区文件系统只读
        本章节主要介绍ALM12015 设备分区文件系统只读。 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12015 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 挂载目录名 产生告警的挂载目录名。 设备分区名 产生告警的设备分区名。 对系统的影响 造成服务数据无法写入,业务系统运行不正常。 可能原因 硬盘存在坏道等故障。 处理步骤 1.打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的。 2.从“定位信息”中获取“主机名”和“设备分区名”,其中“主机名”为故障告警的节点,“设备分区名”为故障磁盘的分区。 3.联系硬件工程师确认为磁盘硬件故障之后,将服务器上故障磁盘在线拔出。 4.拔出磁盘后系统会上报“ALM12014 分区丢失”告警,参考ALM12014 分区丢失进行处理,处理完成后,本告警即可自动消除。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12015 设备分区文件系统只读
      • ALM-14024 租户空间使用率超过阈值
        本章节主要介绍ALM14024 租户空间使用率超过阈值的告警。 告警解释 系统每小时周期性检测租户所关联的每个目录的空间使用率(每个目录已使用的空间大小/每个目录分配的空间大小),并把每个目录实际的空间使用率和该目录设置的阈值相比较。当检测到租户所关联的目录空间使用率高于该目录设置的阈值时,产生该告警。 当上报告警的目录的空间使用率小于或等于该目录设置的阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14024 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名称。 租户名 产生告警的租户名称。 目录名 产生告警的目录名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当监控的租户目录空间使用率超过用户自定义设置的阈值时触发该告警,但不影响对该目录继续写入文件。一旦超过该目录分配的最大存储空间,则HDFS写入数据会失败。 可能原因 告警阈值配置不合理。 租户分配的空间容量不合理
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14024 租户空间使用率超过阈值
      • ALM-38008 Kafka数据目录状态异常
        本章节主要介绍ALM38008 Kafka数据目录状态异常的告警。 告警解释 系统每60秒周期性检测Kafka数据目录状态,当检测到某数据目录状态异常时产生该告警。 平滑次数为1,当数据目录状态恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38008 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名称。 目录名 产生告警的目录名称。 Trigger Condition Kafka数据目录状态异常。 对系统的影响 Kafka数据目录状态异常,会导致该数据目录上所有Partition的当前副本下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。 可能原因 数据目录权限被篡改。 数据目录所在磁盘故障。 处理步骤 检查故障的数据目录权限 根据告警提示的主机信息,登录到该节点上。 1. 查看告警详细信息中所提示的数据目录及其子目录,属组是否为omm:wheel。 是,记录当前节点主机名,并执行步骤4。 否,执行步骤3。 2. 恢复数据目录及其子目录的属组为omm:wheel。 检查数据目录所在磁盘是否故障 使用omm用户,在所提示的数据目录的上一级目录下,进行创建、删除文件测试,看能够正常读写磁盘。 是,执行步骤6。 否,执行步骤5。 3. 更换或者修复数据目录所在磁盘,保证其可以正常读写。 4. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Kafka > 实例”,进入Kafka实例页面,重启步骤2中主机名上的Broker实例。 5. 等待Broker启动完成之后,观察界面告警是否清除。 是,处理完毕。 否,执行步骤8。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-38008 Kafka数据目录状态异常
      • ALM-38006 Kafka未完全同步的Partition百分比超过阈值
        收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7. 在“服务”中勾选待操作集群的“Kafka”。 8. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-38006 Kafka未完全同步的Partition百分比超过阈值
      • ALM-38004 Kafka直接内存使用率超过阈值
        检查Kafka配置的直接内存大小 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Kafka > 配置 > 全部配置 > Broker(角色)> 环境变量”。将“KAFKAHEAPOPTS”参数中配置的“Xmx”值参考如下说明调大。 说明 建议“KAFKAHEAPOPTS”参数中“Xmx”和“Xms”值保持一致。 建议根据步骤2查看“Kafka直接内存使用率”,调整“KAFKAHEAPOPTS”的值为“Kafka使用的直接内存大小”的两倍(可根据实际业务场景进行修改)。 3. 保存配置,并重启Kafka服务。 4. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤7。 收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 5. 在“服务”中勾选待操作集群的“Kafka”。 6. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 7. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-38004 Kafka直接内存使用率超过阈值
      • ALM-38002 Kafka堆内存使用率超过阈值
        检查Kafka配置的堆内存大小 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Kafka > 配置 > 全部配置 > Broker(角色) > 环境变量”。将“KAFKAHEAPOPTS”参数的值参考如下说明调大。 说明 建议“KAFKAHEAPOPTS”参数中“Xmx”和“Xms”值保持一致。 建议根据步骤2查看“Kafka堆内存使用率”,调整“KAFKAHEAPOPTS”的值为“Kafka使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。 3. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。 收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 4. 在“服务”中勾选待操作集群的“Kafka”。 5. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 6. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-38002 Kafka堆内存使用率超过阈值
      • ALM-18018 NodeManager堆内存使用率超过阈值
        本章节主要介绍ALM18018 NodeManager堆内存使用率超过阈值的告警。 告警解释 系统每30秒周期性检测Yarn服务堆内存使用状态,当检测到NodeManager实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 18018 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NodeManager堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至可能会造成内存溢出导致Yarn服务崩溃。 可能原因 该节点NodeManager实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM18018 NodeManager堆内存使用率超过阈值 > 定位信息”。查看告警上报的实例的IP地址。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例 > NodeManager(对应上报告警实例IP地址)”,单击图表区域右上角的下拉菜单,选择“定制 > 资源”,勾选“NodeManager内存使用率”。查看堆内存使用情况。 3.查看NodeManager使用的堆内存是否已达到NodeManager设定的最大堆内存的95%(默认阈值)。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置 > NodeManager > 系统”。将“GCOPTS”参数的值根据实际情况调大。保存配置,并重启NodeManager实例。 说明 集群中的NodeManager实例数量和NodeManager内存大小的对应关系参考如下: 集群中的NodeManager实例数据达到100,NodeManager实例的JVM参数建议配置为:Xms2G Xmx4G XX:NewSize512M XX:MaxNewSize1G。 集群中的NodeManager实例数据达到200,NodeManager实例的JVM参数建议配置为:Xms4G Xmx4G XX:NewSize512M XX:MaxNewSize1G。 集群中的NodeManager实例数据达到500以上,NodeManager实例的JVM参数建议配置为:Xms8G Xmx8G XX:NewSize1G XX:MaxNewSize2G。 5.观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18018 NodeManager堆内存使用率超过阈值
      • ALM-18019 JobHistoryServer非堆内存使用率超过阈值
        告警ID 告警级别 是否自动清除 18019 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18019 JobHistoryServer非堆内存使用率超过阈值
      • 1
      • ...
      • 93
      • 94
      • 95
      • 96
      • 97
      • ...
      • 105
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      天翼云新春焕新季

      云主机开年特惠28.8元/年,0元秒杀等你来抢!

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      物理机 DPS

      多活容灾服务

      GPU云主机

      轻量型云主机

      弹性高性能计算 E-HPC

      天翼云CTyunOS系统

      AI Store

      模型推理服务

      应用托管

      推荐文档

      重置管理员密码

      创建手动备份

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号