云主机开年特惠28.8元/年,0元秒杀等你来抢!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 天翼云新春焕新季 NEW 云主机开年特惠28.8元/年,0元秒杀等你来抢!
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      翼来单_相关内容
      • ALM-45736 Guardian服务不可用
        检查所有TokenServer实例 以omm用户登录TokenServer实例所在节点,执行 ps efgrep "rangerobsservice" 命令查看当前节点是否存在TokenServer进程。 是,执行步骤5。 否,重启TokenServer故障实例,执行步骤4。 2. 在告警列表中查看“Guardian服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤5。 收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 3. 在“服务”框中勾选待操作集群的“Guardian”。 4. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 5. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45736 Guardian服务不可用
      • ALM-45425 ClickHouse服务不可用
        参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45425 ClickHouse服务不可用
      • ALM-27006 数据目录磁盘空间使用率超过阈值
        本章节主要介绍 ALM27006 数据目录磁盘空间使用率超过阈值的告警。 告警解释 系统每30秒周期性检查DBServer主节点的数据目录磁盘空间使用率,并把实际数据目录磁盘空间使用率和阈值相比较,当数据目录磁盘空间使用率连续5次(可配置,默认值为5)超过设定阈值时,系统将产生此告警。数据目录磁盘空间使用率的阈值设为80%(可配置,默认值为80%)。 平滑次数可配置,当平滑次数为1,数据磁盘目录空间使用率小于或等于阈值时,该告警恢复;当平滑次数大于1,数据磁盘目录空间使用率小于阈值的90%时,该告警恢复。 告警属性 告警ID 告警级别 是否自动清除 27006 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 设备分区名 产生告警的磁盘分区。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程不可用。 当数据目录磁盘空间使用率超过90%时,数据库进入只读模式并发送告警“数据库进入只读模式”,业务数据丢失。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27006 数据目录磁盘空间使用率超过阈值
      • ALM-28001 Spark服务不可用(2.x及以前版本)
        告警ID 告警级别 可自动清除 28001 致命 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-28001 Spark服务不可用(2.x及以前版本)
      • ALM-18013 ResourceManager直接内存使用率超过阈值
        收集故障信息 9.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 10.在“服务”中勾选待操作集群的“ResourceManager”。 11.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 12.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18013 ResourceManager直接内存使用率超过阈值
      • ALM-27004 DBService主备数据不同步
        告警ID 告警级别 是否自动清除 27004 紧急 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27004 DBService主备数据不同步
      • ALM-18009 JobHistoryServer堆内存使用率超过阈值
        处理步骤 检查内存使用量 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > MapReduce JobHistoryServer堆内存使用率超过阈值 > 定位信息”。查看告警上报的实例主机名。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Mapreduce > 实例 > JobHistoryServer(对应上报告警实例主机名)”,单击图表区域右上角的下拉菜单,选择“定制 > 资源”,勾选“JobHistoryServer堆内存使用百分比统计”。查看堆内存使用情况。 3.查看JobHistoryServer使用的堆内存是否已达到JobHistoryServer设定的最大堆内存的95%。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Mapreduce > 配置 > 全部配置 > JobHistoryServer > 系统”。将“GCOPTS”参数根据实际情况调大,并单击“保存”,单击“确定”并进重启。 说明 历史任务数10000和JobHistoryServer内存的对应关系如下: Xms30G Xmx30G XX:NewSize1G XX:MaxNewSize2G 5.观察界面告警是否清除? 是,处理完毕。 否,执行步骤6。 收集故障信息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”中勾选待操作集群的如下节点信息。 NodeAgent Mapreduce 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18009 JobHistoryServer堆内存使用率超过阈值
      • ALM-27001 DBService服务不可用
        收集故障信息 19. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 20. 在“服务”中勾选待操作集群的“DBService”和“NodeAgent”。 21. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 22. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27001 DBService服务不可用
      • ALM-27003 DBService主备节点间心跳中断
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Local DBService HA Name 本地DBService HA名称。 Peer DBService HA Name 对端DBService HA名称。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27003 DBService主备节点间心跳中断
      • ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
      • ALM-14026 DataNode块数超过阈值
        告警ID 告警级别 是否自动清除 14026 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14026 DataNode块数超过阈值
      • ALM-16001 Hive数据仓库空间使用率超过阈值
        告警ID 告警级别 是否自动清除 16001 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16001 Hive数据仓库空间使用率超过阈值
      • ALM-24007 Flume Server直接内存使用率超过阈值
        收集故障息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”框中勾选待操作集群的“Flume”。 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24007 Flume Server直接内存使用率超过阈值
      • ALM-14020 HDFS目录条目数量超过阈值
        收集故障信息 9.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 10.在“服务”中勾选待操作集群的“HDFS”,单击“确定”。 11.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 12.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14020 HDFS目录条目数量超过阈值
      • ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
        告警ID 告警级别 是否自动清除 45280 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
      • ALM-45279 RangerAdmin非堆内存使用率超过阈值
        收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 5. 在“服务”框中勾选待操作集群的“Ranger”。 6. 单击右上角的 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 7. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45279 RangerAdmin非堆内存使用率超过阈值
      • ALM-24013 Flume MonitorServer证书文件非法或已损坏
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24013 Flume MonitorServer证书文件非法或已损坏
      • ALM-24014 Flume MonitorServer证书文件即将过期
        告警ID 告警级别 是否自动清除 24014 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24014 Flume MonitorServer证书文件即将过期
      • ALM-45176 OBS元数据接口调用成功率低于阈值
        告警ID 告警级别 是否自动清除 45176 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45176 OBS元数据接口调用成功率低于阈值
      • ALM-45178 OBS数据写操作接口调用成功率低于阈值
        本章节主要介绍ALM45178 OBS数据写操作接口调用成功率低于阈值的告警。 告警解释 系统每30秒周期性检测OBS数写操作接口调用成功率是否小于阈值,当检测到小于所设置阈值时就会产生该告警 。 当OBS数据写操作接口调用成功率大于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除 45178 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS数据写操作接口调用成功率小于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 检查堆内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS数据写操作接口调用成功率低于阈值”,查看“定位信息”中的角色名并确定实例的IP地址。 1. 选择“集群 > 待操作集群的名称 > 服务 > meta > 实例 > meta(对应上报告警实例IP地址)”。单击图表区域右上角的下拉菜单,选择“定制”,在“OBS数据写操作”中勾选“OBS数据写操作接口调用成功率”,单击“确定”,查看OBS数据写操作接口调用成功率,确定是否有接口调用成功率低于阈值。 是,执行步骤3。 否,执行步骤5。 2. 选择“集群 > 待操作集群的名称 > 运维 > 告警 > 阈值设置 > meta > OBS数据写操作接口调用成功率”,将阈值或平滑次数参数的值根据实际情况调小。 3. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤5。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45178 OBS数据写操作接口调用成功率低于阈值
      • ALM-44006 Presto Worker进程垃圾收集时间超出阈值
        收集故障信息 1.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 2.在“服务”中勾选操作集群的“Presto ”,单击“确定”。 3.单击右上角的 设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后30分钟,单击“下载”。 4.请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-44006 Presto Worker进程垃圾收集时间超出阈值
      • ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
        告警ID 告警级别 可自动清除 44005 严重 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
      • ALM-44004 Presto Coordinator资源组排队任务超过阈值
        参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-44004 Presto Coordinator资源组排队任务超过阈值
      • ALM-43021 IndexServer2x进程直接内存使用超出阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43021 IndexServer2x进程直接内存使用超出阈值
      • ALM-43022 IndexServer2x进程GC时间超出阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43022 IndexServer2x进程GC时间超出阈值
      • ALM-43018 JobHistory2x进程Full GC次数超出阈值
        本章节主要介绍ALM43018 JobHistory2x进程Full GC次数超出阈值的告警。 告警解释 系统每60秒周期性检测JobHistory2x进程的Full GC次数,当检测到JobHistory2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 > 阈值设置 > 待操作集群的名称 > Spark2x > GC次数 > JobHistory2x的Full GC次数”修改阈值。当JobHistory2x进程Full GC次数小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 43018 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC次数超出阈值,会影响JobHistory2x进程运行的性能,甚至造成JobHistory2x进程不可用。 可能原因 该节点JobHistory2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程Full GC频繁。 处理步骤 检查Full GC次数 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“43018”的告警,查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”,单击上报告警的JobHistory2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > JobHistory2x的Full GC次数”,单击“确定”,查看JobHistory2x进程的Full GC次数是否大于阈值(默认值12)。 是,执行步骤3。 否,执行步骤6。 2. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,选择“JobHistory2x > 默认”,将“SPARKDAEMONMEMORY”参数的默认值为4G,可根据如下原则进行调整:若偶现告警,可以按0.5倍速率调大。若告警次数比较频繁,可以按1倍速率调大。 3. 重启所有的JobHistory2x实例。 4. 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43018 JobHistory2x进程Full GC次数超出阈值
      • ALM-18016 ResourceManager非堆内存使用率超过阈值
        收集故障信息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”中勾选待操作集群的如下节点信息。 NodeAgent。 Yarn。 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18016 ResourceManager非堆内存使用率超过阈值
      • ALM-43017 JDBCServer2x进程Full GC次数超出阈值
        本章节主要介绍ALM43017 JDBCServer2x进程Full GC次数超出阈值的告警。 告警解释 系统每60秒周期性检测JDBCServer2x进程的Full GC次数,当检测到JDBCServer2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Spark2x > GC次数 > JDBCServer2x的Full GC次数”修改阈值。当JDBCServer2x进程Full GC次数小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 43017 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC次数超出阈值,会影响JDBCServer2x进程运行的性能,甚至造成JDBCServer2x进程不可用。 可能原因 该节点JDBCServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程Full GC频繁。 处理步骤 检查Full GC次数 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“43017”的告警,查看“定位信息”中的角色名以及确认主机名所在的IP地址。 1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 实例”,单击上报告警的JDBCServer2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > JDBCServer2x的Full GC次数”,单击“确定”,查看JDBCServer进程的Full GC次数是否大于阈值(默认12)。 是,执行步骤3。 否,执行步骤6。 2. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,选择“JDBCServer2x > 性能”,“SPARKDRIVERMEMORY”参数的默认值为4G,可根据如下原则进行调整:若偶现告警,可以按0.5倍速率调大。若告警次数比较频繁,可以按1倍速率调大。多业务量、高并发的情况可以考虑增加实例。 3. 重启所有的JDBCServer2x实例。 4. 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-43017 JDBCServer2x进程Full GC次数超出阈值
      • ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
        告警ID 告警级别 是否自动清除 13005 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
      • ALM-13007 ZooKeeper客户端可用连接数不足
        本章节主要介绍 ALM13007 ZooKeeper客户端可用连接数不足。 告警解释 系统每60秒周期性检测ZooKeeper客户端连接到ZooKeeper服务器上的活动进程数,当检测到连接数目超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13007 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 ClientIP 客户端IP。 ServerIP 服务端IP。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 大量进程连接到ZooKeeper,导致ZooKeeper连接数被占满,无法对外正常提供服务。 可能原因 客户端大量进程连接到ZooKeeper,或者自定义阈值设置不合理。 处理步骤 检查客户端是否存在大量进程连接ZooKeeper的情况 1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ZooKeeper客户端可用连接数不足”所在行的下拉菜单,在定位信息中确认告警上报的主机名所在的节点IP地址。 2. 选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper”,单击“资源”进入资源页面,在表“连接数(按客户端IP)”中查看告警对应客户端IP的连接数是否较大。 是,执行步骤3。 否,执行步骤4。 3. 请确认并排查该客户端是否存在进程连接泄露的情况。 4. 单击“连接数(按客户端IP)”中的 ,进入“阈值设置”页面,单击“操作”下的“修改”。参考“集群 > 待操作集群的名称 > 服务 > ZooKeeper > 配置 > 全部配置 > quorumpeer”中参数“ maxClientCnxns”的值,调大阈值。 5. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤 6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13007 ZooKeeper客户端可用连接数不足
      • ALM-13008 ZooKeeper Znode数量使用率超出阈值
        本章节主要介绍 ALM13008 ZooKeeper Znode数量使用率超出阈值。 告警解释 系统每小时周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总数量超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13008 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 服务目录 产生告警的目录名称。 角色名 产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致ZooKeeper无法对外正常提供服务。 可能原因 往ZooKeeper数据目录空间写入大量数据。 自定义阈值设置不合理。 处理步骤 检查告警目录是否写入大量数据 1. 登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper”,单击“资源”,在精细化监控“资源使用(按二级Znode)”中单击“按Znode数量”,查看监控中是否有顶级Znode被写入较多数据。 是,执行步骤2。 否,执行步骤4。 2. 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,打开告警“ALM13008 ZooKeeper Znode数量使用率超出阈值”左侧下拉菜单,在“定位信息”的“服务目录”中获取告警的Znode路径。 3. 以集群用户登录ZooKeeper客户端,删除告警对应Znode下的无用数据。 4. 登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > 配置 > 全部配置”,搜索“max.znode.count”,即ZooKeeper目录的数量配额的最大值,告警阈值为该值的80%,修改调大该配置项,单击“保存”,重启服务使配置生效。 5. 观察界面告警是否清除。 是,处理完毕。 否,执行步骤 6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13008 ZooKeeper Znode数量使用率超出阈值
      • ALM-16005 Hive服务进程堆内存使用超出阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16005 Hive服务进程堆内存使用超出阈值
      • 1
      • ...
      • 187
      • 188
      • 189
      • 190
      • 191
      • ...
      • 197
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      天翼云新春焕新季

      云主机开年特惠28.8元/年,0元秒杀等你来抢!

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      弹性云主机 ECS

      物理机 DPS

      GPU云主机

      轻量型云主机

      弹性伸缩服务 AS

      弹性高性能计算 E-HPC

      天翼云CTyunOS系统

      AI Store

      公共算力服务

      推荐文档

      云课堂 第六课:如何让云主机不放在同一个篮子里

      查看云间高速

      连接列表

      云课堂 第十四课:天翼云云硬盘的磁盘模式及共享盘

      全面了解天翼云⑤:勒索病毒尝试处理方案

      操作类

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号