云主机开年特惠28.8元/年,0元秒杀等你来抢!
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 天翼云新春焕新季 NEW 云主机开年特惠28.8元/年,0元秒杀等你来抢!
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      天翼云云间高速_相关内容
      • ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
        本章节主要介绍ALM38005 Broker进程垃圾回收(GC)时间超过阈值的告警。 告警解释 系统每60秒周期性检测Broker进程的垃圾回收(GC)占用时间,当连续3次检测到Broker进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 平滑次数为1,垃圾回收(GC)时间小于或等于阈值时,告警恢复;平滑次数大于1,垃圾回收(GC)时间小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38005 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Broker进程的垃圾回收时间过长,可能影响该Broker进程正常提供服务。 可能原因 该节点Kafka实例进程的垃圾回收时间过长,或配置的直接内存大小不合理,导致进程GC频繁。 处理步骤 检查Broker 进程的垃圾回收(GC )时间 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Broker进程垃圾回收(GC)时间超过阈值 > 定位信息”。查看告警上报的实例的主机名。 1. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Kafka > 实例”,选择上报告警实例主机名对应的角色 。单击图表区域右上角的下拉菜单,选择“定制 > 进程 > Broker垃圾回收(GC)时间”,单击“确定”。 2. 查看Broker每分钟的垃圾回收时间统计值是否大于告警阈值(默认12秒)。 是,执行步骤4。 否,执行步骤7。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
      • ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
        收集故障信息 7.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 8.在“服务”中勾选待操作集群的“NodeManager”。 9.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 10.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
      • ALM-18014 NodeManager直接内存使用率超过阈值
        告警ID 告警级别 是否自动清除 18014 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18014 NodeManager直接内存使用率超过阈值
      • ALM-18017 NodeManager非堆内存使用率超过阈值
        告警ID 告警级别 是否自动清除 18017 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18017 NodeManager非堆内存使用率超过阈值
      • ALM-17006 Oozie直接内存使用率超过阈值
        收集故障信息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”框中勾选待操作集群的“Oozie”。 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-17006 Oozie直接内存使用率超过阈值
      • ALM-45175 OBS元数据接口调用平均时间超过阈值
        收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 4. 在“服务”中勾选操作OMS下面的“NodeAgent”、“NodeMetricAgent”、“OmmServer”、“OmmAgent”。 5. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。 6. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45175 OBS元数据接口调用平均时间超过阈值
      • ALM-45283 UserSync非堆内存使用率超过阈值
        收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 5. 在“服务”框中勾选待操作集群的“Ranger”。 6. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 7. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45283 UserSync非堆内存使用率超过阈值
      • ALM-45282 UserSync直接内存使用率超过阈值
        本章节主要介绍ALM45282 UserSync直接内存使用率超过阈值的告警。 告警解释 系统每60秒周期性检测UserSync服务直接内存使用状态,当连续5次检测到UserSync实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当UserSync直接内存使用率小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45282 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 直接内存溢出可能导致服务崩溃。 可能原因 节点UserSync实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM45282 UserSync直接内存使用率超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 1. 在FusionInsight Manager首页,选择“集群 > 服务 > Ranger > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存 > UserSync直接内存使用率”,单击“确定”。 2. 查看UserSync使用的直接内存是否已达到UserSync设定的阈值(默认值为最大直接内存的80%)。 是,执行步骤4。 否,执行步骤6。 3. 在FusionInsight Manager首页,选择“集群 > 服务 > Ranger > 实例 > UserSync >实例配置”,单击“全部配置”,选择“UserSync > 系统”。将“GCOPTS”参数中“XX:MaxDirectMemorySize”的值根据实际情况调大,并保存配置。 说明 出现此告警时,说明当前UserSync设置的直接内存无法满足当前UserSync进程所需的直接内存,建议根据步骤2查看“UserSync直接内存使用率”,调整“GCOPTS”参数中“XX:MaxDirectMemorySize”的值为“UserSync使用的直接内存大小”的两倍(可根据实际业务场景进行修改)。 4. 重新启动受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45282 UserSync直接内存使用率超过阈值
      • ALM-45277 RangerAdmin堆内存使用率超过阈值
        告警ID 告警级别 是否自动清除 45277 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45277 RangerAdmin堆内存使用率超过阈值
      • ALM-45278 RangerAdmin直接内存使用率超过阈值
        本章节主要介绍ALM45278 RangerAdmin直接内存使用率超过阈值的告警。 告警解释 系统每60秒周期性检测RangerAdmin服务直接内存使用状态,当连续5次检测到RangerAdmin实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当RangerAdmin直接内存使用率小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45278 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 直接内存溢出可能导致服务崩溃。 可能原因 节点RangerAdmin实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM45278 RangerAdmin直接内存使用率超过阈值”,检查该告警的“定位信息”,查看告警上报的实例主机名。 1. 在FusionInsight Manager首页,选择“集群 > 服务 > Ranger > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存 > RangerAdmin直接内存使用率”,单击“确定”。 2. 查看RangerAdmin使用的直接内存是否已达到RangerAdmin设定的阈值(默认值为最大直接内存的80%)。 是,执行步骤4。 否,执行步骤6。 3. 在FusionInsight Manager首页,选择“集群 > 服务 > Ranger > 实例 > RangerAdmin > 实例配置”,单击“全部配置”,选择“RangerAdmin > 系统”。将“GCOPTS”参数中“XX:MaxDirectMemorySize”的值根据实际情况调大,并保存配置。 说明 出现此告警时,说明当前RangerAdmin设置的直接内存无法满足当前RangerAdmin进程所需的直接内存,建议根据步骤2查看“RangerAdmin直接内存使用率”,调整“GCOPTS”参数中“XX:MaxDirectMemorySize”的值为“RangerAdmin使用的直接内存大小”的两倍(可根据实际业务场景进行修改)。 4. 重新启动受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45278 RangerAdmin直接内存使用率超过阈值
      • ALM-45275 Ranger服务不可用
        本章节主要介绍ALM45275 Ranger服务不可的告警。 告警解释 告警模块按180秒周期检测Ranger服务状态,当检测到Ranger服务异常时,系统产生此告警。 当系统检测到Ranger服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45275 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 可能原因 Ranger服务所依赖内部服务DBService故障。 RangerAdmin角色实例异常。 处理步骤 检查DBService进程状态 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,查看系统是否上报“ALM27001 DBService服务不可用”告警。 是,执行步骤2。 否,执行步骤3。 1. 参考“ALM27001 DBService服务不可用”告警帮助指导对DBService服务状态异常进行处理,待DBService告警消除后,查看“Ranger服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤3。 检查所有RangerAdmin实例 以omm用户登录RangerAdmin实例所在节点,执行 ps efgrep "procrangeradmin" 命令查看当前节点是否存在RangerAdmin进程。 是,执行步骤5。 否,重启RangerAdmin故障实例或Ranger服务,执行步骤4。 2. 在告警列表中查看“Ranger服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤5。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45275 Ranger服务不可用
      • ALM-25000 LdapServer服务不可用
        检查LdapServer进程是否正常 6.选择“运维 > 告警 > 告警”,在告警列表中查看是否有“进程故障”告警产生。 是,执行步骤7。 否,执行步骤10。 7.查看告警信息中的服务名和主机名是否和LdapServer服务名和主机名一致。 是,执行步骤8。 否,执行步骤10。 8.按“ALM12007 进程故障”提供的步骤处理该告警。 9.在告警列表中查看“LdapServer服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤10。 收集故障信息 10.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 11.在“服务”中勾选待操作集群的“LdapServer”。 12.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 13.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-25000 LdapServer服务不可用
      • ALM-27007 数据库进入只读模式
        show defaulttransactionreadonly; defaulttransactionreadonly on (1 row) 是,执行步骤4。 否,执行步骤13。 4. 执行以下命令,打开“dbservice.properties”文件: source $DBSERVERHOME/.dbserviceprofile vi ${DBSERVICESOFTWAREDIR}/tools/dbservice.properties 5. 修改“gaussdbreadonlyauto”的值为“OFF”,默认为“ON”。 6. 执行以下命令,打开“postgresql.conf”文件: vi ${DBSERVICEDATADIR }/postgresql.conf 7. 删除“defaulttransactionreadonly on”。 8. 执行以下命令,使配置生效: gsctl reload D ${DBSERVICEDATADIR } 9. 登录FusionInsight Manager,选择“运维 > 告警 > 告警”。单击告警“数据库进入只读模式”所在行右侧“操作”列中的“清除”,在弹出窗口中单击“确定”。手动清除该告警。 10. 以omm用户登录DBServer主管理节点,执行以下命令查看数据目录磁盘空间下超过500MB的文件,检查该目录下是否有误写入的大文件存在。 source $DBSERVERHOME/.dbserviceprofile find "$DBSERVICEDATADIR"/../ type f size +500M 是,执行步骤11。 否,执行步骤13。 11. 根据实际情况处理误写入的文件。 12. 登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > DBService”,在“概览”页面查看“数据目录磁盘空间使用率”图表,检查数据目录磁盘空间使用率是否低于80%。 是,处理完毕。 否,执行步骤13。 收集故障信息 13. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 14. 在“服务”中勾选待操作集群的“DBService”。 15. 设置日志收集的主机,可选项,默认所有主机。 16. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 17. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27007 数据库进入只读模式
      • ALM-29005 Impalad JDBC连接数超过阈值
        本章节主要介绍ALM29005 Impalad JDBC连接数超过阈值的告警。 告警解释 以30s为周期检测连接到该Impalad节点的客户端连接数,当检测到的连接数超过自定义阈值(默认60)时,系统产生此告警。 当系统检测到客户端连接数减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29005 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 Trigger Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 后续新建立客户端连接可能会阻塞甚至失败。 可能原因 该Impalad服务维护的客户端链接过多,或者阈值设定的太小。 处理步骤 1. 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala > 连接数 > 已经连接到Impalad进程的JDBC数量” ,检查设置的阈值大小。 2. 检查连接到当前Impalad的JDBC应用数,并关闭闲置的应用,观察告警是否自动清除。 是,处理完毕。 否,执行步骤3,修改并发客户端连接数。 3. 在FusionInsight Manager首页,选择“集群 > Impala > 配置 > 全部配置 > Impalad > 自定义”,增加自定义参数 feservicethreads,该参数默认值64,请按照需要修改该值,单击“保存”按钮保存配置。 4. 在所有客户端的查询任务都执行完成后,选择“实例”页签,勾选所有“Impalad”实例并重启。 5. 重启完成后告警将消失,请重新运行使用JDBC方式连接Impalad的应用。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-29005 Impalad JDBC连接数超过阈值
      • ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
        检查znode数量配额和使用量 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“19015”的告警,查看“附加信息”中的阈值。 2.以root用户登录HBase客户端。执行以下命令进入客户端安装目录: cd 客户端安装目录 然后执行以下命令设置环境变量: source bigdataenv 如果集群采用安全版本,要执行以下命令进行安全认证: kinit hbase 按提示输入密码(向管理员获取密码)。 3.执行hbase zkcli命令进入ZooKeeper客户端,然后执行命令listquota /hbase查看对应HBase服务的znode数量配额,其中命令中的znode根目录为对应HBase服务的参数“zookeeper.znode.parent”所指定。下图标注所示即为当前HBase服务根znode的数量配额。 4.执行命令getusage /hbase/splitWAL查看该znode的数量使用情况,查看返回结果的“ Node count ”跟znode数量配额的比值是否接近告警的阈值。 是,执行步骤5。 否,执行步骤6。 5.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看是否存在“告警ID”为“12007”、“19000”或者“19013”且“定位信息”中的“服务名”为当前HBase服务的告警。 是,单击对应告警右侧的“查看帮助”并按照帮助文档进行处理,执行步骤8。 否,执行步骤9。 6.执行命令getusage /hbase/replication查看该znode的数量使用情况,查看返回结果的“ Node count ”跟znode数量配额的比值是否接近告警的阈值。 是,执行步骤7。 否,执行步骤9。 7.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看是否存在“告警ID”为“19006”并且“定位信息”中的“服务名”为当前HBase服务的告警。 是,单击对应告警右侧的“查看帮助”并按照帮助文档进行处理,执行步骤8。 否,执行步骤9。 8.观察界面告警是否清除。 是,处理完毕。 否,执行步骤9。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
      • ALM-24004 Flume读取数据异常
        检查Flume Source配置的IP所在节点与故障节点的网络状态 7.本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“type avro”关键字确认Flume Source是否是avro类型。 是,执行步骤8。 否,执行步骤11。 8.以root用户登录故障节点所在主机,执行ping Flume Source配置的IP地址命令查看对端主机是否可以ping通。 是,执行步骤11。 否,执行步骤9。 9.联系网络管理员恢复网络。 10.等待一段时间后,在告警列表中,查看告警是否清除。 是,处理完毕。 否,执行步骤11。 收集故障信息 11.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 12.在“服务”框中勾选待操作集群的“Flume”。 13.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 14.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24004 Flume读取数据异常
      • ALM-27005 数据库连接数使用率超过阈值
        检查数据库连接数最大值设置是否合理 4. 登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > DBService > 配置 > 全部配置”,根据实际业务需求,将数据库连接数的最大值适当增加,如下所示。修改后单击“保存”,在弹出的“保存配置”页面中单击“确定”。 5. 完成数据库连接数最大值修改后,需要重启DBService服务(不要重启其上层服务)。 操作步骤:登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 >DBService > 更多 > 重启服务”,输入当前登录的用户密码确认身份,单击“确定”。注意,不要勾选“同时重启上层服务”,单击“确定”完成重启。 6. 重启服务完成后,等待2分钟查看告警是否自动恢复。 是,处理完毕。 否,执行步骤7。 检查告警阈值配置或者平滑次数配置是否合理 7. 登录FusionInsight Manager,基于实际数据库连接数使用率的情况,修改告警阈值和平滑次数配置项。选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > DBService > 数据库 > 数据库连接数使用率(DBServer)”,单击平滑次数旁的铅笔标志,更改告警的平滑次数,如下图所示。 说明 平滑次数:连续检查多少次超过阈值,则发送告警。 设置告警平滑次数 根据数据库连接数使用率的实际情况,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > DBService > 数据库 > 数据库连接数使用率 (DBServer)”,单击“操作”栏的“修改”按钮,进入修改规则界面,修改后单击“确定”,修改即生效,如下图所示。 8. 等待2分钟,查看告警是否自动恢复。 是,处理完毕。 否,执行步骤9。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27005 数据库连接数使用率超过阈值
      • ALM-14012 Journalnode数据不同步
        本章节主要介绍ALM14012 Journalnode数据不同步的告警。 告警解释 在主NameNode节点上,系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步,系统产生该告警。 当Journalnode数据同步5分钟后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14012 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 NameService名 产生告警的NameService名称。 对系统的影响 当一个JournalNode节点工作状态异常时,其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时,NameNode将无法工作,导致HDFS服务不可用。 可能原因 JournalNode实例不存在(被删除或被迁移)。 JournalNode实例未启动或已停止。 JournalNode实例运行状态异常。 JournalNode节点的网络不可达。 处理步骤 查看JournalNode实例是否启动 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,在告警列表中单击此告警。 2.查看“定位信息”,获取告警产生的JournalNode节点IP地址。 3..选择“集群 > 待操作集群的名称 > 服务 > HDFS > 实例”,在实例列表中查看告警节点上是否存在JournalNode实例。 是,执行步骤5。 否,执行步骤4。 4.选择“运维 > 告警 > 告警”,在告警列表中单击此告警“操作”栏中的“清除”,在弹出窗口中单击“确定”,处理完毕。 5.单击该JournalNode实例,查看其“配置状态”是否为“已同步”。 是,执行步骤8。 否,执行步骤6。 6.勾选该JournalNode实例,单击“启动实例”,等待启动完成。 7.等待5分钟后,查看告警是否清除。 是,处理完毕。 否,执行步骤15。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14012 Journalnode数据不同步
      • ALM-25006 Sssd服务异常
        收集故障信息 13.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 14.在“服务”中勾选待操作集群的“LdapClient”。 15.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 16.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-25006 Sssd服务异常
      • ALM-14018 NameNode非堆内存使用率超过阈值
        本章节主要介绍 ALM14018 NameNode非堆内存使用率超过阈值的告警。 告警解释 系统每30秒周期性检测HDFS NameNode非堆内存使用率,并把实际的HDFS NameNode非堆内存使用率和阈值相比较。HDFS NameNode非堆内存使用率指标默认提供一个阈值范围。当HDFS NameNode非堆内存使用率超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。 当HDFS NameNode非堆内存使用率小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14018 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS NameNode非堆内存使用率过高,会影响HDFS的数据读写性能。 可能原因 HDFS NameNode配置的非堆内存不足。 处理步骤 清除无用文件 1.以root用户登录HDFS客户端。执行cd命令进入客户端安装目录,然后执行 source bigdataenv 。 如果集群采用安全版本,要进行安全认证。 执行kinit hdfs命令,按提示输入密码。向管理员获取密码。 2.执行hdfs dfs rm r 文件或目录路径命令,确认删除无用的文件。 3.检查本告警是否恢复。 是,处理完毕。 否,执行步骤4。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14018 NameNode非堆内存使用率超过阈值
      • MRS Manager简介
        本章节主要介绍MRS Manager简介。 概述 MRS为用户提供海量数据的管理及分析功能,快速从结构化和非结构化的海量数据中挖掘您所需要的价值数据。开源组件结构复杂,安装、配置、管理过程费时费力,MRS Manager提供了企业级的大数据集群的统一管理平台: 提供集群状态的监控功能,您能快速掌握服务及主机的健康状态。 提供图形化的指标监控及定制,您能及时的获取系统的关键信息。 提供服务属性的配置功能,满足您实际业务的性能需求。 提供集群、服务、角色实例的操作功能,满足您一键启停等操作需求。 系统界面简介 MRS Manager提供统一的集群管理平台,帮助用户快捷、直观的完成集群的运行维护。MRS Manager请参考访问MRS Manager(MRS 2.x及之前版本)页面访问。 各操作入口的详细功能如下表所示。 界面 功能描述 系统概览 提供柱状图、折线图、表格等多种图表方式展示所有服务的状态、各服务的主要监控指标、主机的状态统计。用户可以定制关键监控信息面板,并拖动到任意位置。系统概览支持数据自动刷新。 服务管理 提供服务监控、服务操作向导以及服务配置,帮助用户对服务进行统一管理。 主机管理 提供主机监控、主机操作向导,帮助用户对主机进行统一管理。 告警管理 提供告警查询、告警处理指导功能。帮助用户及时发现产品故障及潜在隐患,并进行定位排除,以保证系统正常运行。 审计管理 提供审计日志查询及导出功能。帮助用户查阅所有用户活动及操作。 租户管理 提供统一租户管理平台。 系统设置 用户可以进行监控和告警配置管理、备份管理。 当用户进入到“系统设置”的各子功能页面后,提供快捷方式跳转到其他System子功能页面,如下表所示。 快捷跳转操作示例如下所示。 1. 在MRS Manager,单击“系统设置”。 2. 在“系统设置”界面,任意单击一个功能链接,进入具体功能界面。 例如在“备份恢复管理”区域中单击“备份管理”,进入到“备份管理”界面。 3. 将鼠标移动到浏览器窗口的左边界,弹出“系统设置”黑色快捷菜单。鼠标移出该菜单后,该菜单收起。 4. 在弹出的快捷菜单上,可以单击某个功能链接直接跳转到对应的功能界面。 例如选择“维护 > 日志导出”,进入“日志导出”界面。 集群的System快捷菜单 菜单子标题 功能链接 备份恢复管理 备份管理 恢复管理 恢复管理 维护 日志导出 维护 审计日志导出 维护 健康检查 监控和告警配置 Syslog配置 资源贡献排名配置 阈值管理 资源贡献排名配置 SNMP配置 资源贡献排名配置 监控指标转储配置 资源贡献排名配置 资源贡献排名配置 权限配置 用户管理 权限配置 用户组管理 权限配置 角色管理 权限配置 密码策略配置 权限配置 OMS数据库密码修改 资源管理 静态服务池 补丁管理 补丁管理
        来自:
        帮助文档
        翼MapReduce
        用户指南
        MRS Manager操作指导(适用于2.x及之前)
        MRS Manager简介
      • ALM-45736 Guardian服务不可用
        检查所有TokenServer实例 以omm用户登录TokenServer实例所在节点,执行 ps efgrep "rangerobsservice" 命令查看当前节点是否存在TokenServer进程。 是,执行步骤5。 否,重启TokenServer故障实例,执行步骤4。 2. 在告警列表中查看“Guardian服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤5。 收集故障信息 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 3. 在“服务”框中勾选待操作集群的“Guardian”。 4. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 5. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45736 Guardian服务不可用
      • ALM-45425 ClickHouse服务不可用
        参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-45425 ClickHouse服务不可用
      • ALM-27006 数据目录磁盘空间使用率超过阈值
        本章节主要介绍 ALM27006 数据目录磁盘空间使用率超过阈值的告警。 告警解释 系统每30秒周期性检查DBServer主节点的数据目录磁盘空间使用率,并把实际数据目录磁盘空间使用率和阈值相比较,当数据目录磁盘空间使用率连续5次(可配置,默认值为5)超过设定阈值时,系统将产生此告警。数据目录磁盘空间使用率的阈值设为80%(可配置,默认值为80%)。 平滑次数可配置,当平滑次数为1,数据磁盘目录空间使用率小于或等于阈值时,该告警恢复;当平滑次数大于1,数据磁盘目录空间使用率小于阈值的90%时,该告警恢复。 告警属性 告警ID 告警级别 是否自动清除 27006 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 设备分区名 产生告警的磁盘分区。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程不可用。 当数据目录磁盘空间使用率超过90%时,数据库进入只读模式并发送告警“数据库进入只读模式”,业务数据丢失。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27006 数据目录磁盘空间使用率超过阈值
      • ALM-28001 Spark服务不可用(2.x及以前版本)
        告警ID 告警级别 可自动清除 28001 致命 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-28001 Spark服务不可用(2.x及以前版本)
      • ALM-18013 ResourceManager直接内存使用率超过阈值
        收集故障信息 9.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 10.在“服务”中勾选待操作集群的“ResourceManager”。 11.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 12.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18013 ResourceManager直接内存使用率超过阈值
      • ALM-27004 DBService主备数据不同步
        告警ID 告警级别 是否自动清除 27004 紧急 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27004 DBService主备数据不同步
      • ALM-18009 JobHistoryServer堆内存使用率超过阈值
        处理步骤 检查内存使用量 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > MapReduce JobHistoryServer堆内存使用率超过阈值 > 定位信息”。查看告警上报的实例主机名。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Mapreduce > 实例 > JobHistoryServer(对应上报告警实例主机名)”,单击图表区域右上角的下拉菜单,选择“定制 > 资源”,勾选“JobHistoryServer堆内存使用百分比统计”。查看堆内存使用情况。 3.查看JobHistoryServer使用的堆内存是否已达到JobHistoryServer设定的最大堆内存的95%。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Mapreduce > 配置 > 全部配置 > JobHistoryServer > 系统”。将“GCOPTS”参数根据实际情况调大,并单击“保存”,单击“确定”并进重启。 说明 历史任务数10000和JobHistoryServer内存的对应关系如下: Xms30G Xmx30G XX:NewSize1G XX:MaxNewSize2G 5.观察界面告警是否清除? 是,处理完毕。 否,执行步骤6。 收集故障信息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”中勾选待操作集群的如下节点信息。 NodeAgent Mapreduce 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18009 JobHistoryServer堆内存使用率超过阈值
      • ALM-27001 DBService服务不可用
        收集故障信息 19. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 20. 在“服务”中勾选待操作集群的“DBService”和“NodeAgent”。 21. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 22. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-27001 DBService服务不可用
      • ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
      • ALM-14029 单副本的块数超过阈值
        告警ID 告警级别 是否自动清除 14029 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14029 单副本的块数超过阈值
      • ALM-16001 Hive数据仓库空间使用率超过阈值
        告警ID 告警级别 是否自动清除 16001 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16001 Hive数据仓库空间使用率超过阈值
      • 1
      • ...
      • 264
      • 265
      • 266
      • 267
      • 268
      • ...
      • 277
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      天翼云新春焕新季

      云主机开年特惠28.8元/年,0元秒杀等你来抢!

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      多活容灾服务

      GPU云主机

      轻量型云主机

      弹性高性能计算 E-HPC

      训推服务

      AI Store

      公共算力服务

      应用托管

      科研助手

      推荐文档

      产品功能

      云课堂 第十八课:天翼云函数服务之“Hello,World!”

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号