活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      翼备份_相关内容
      • ALM-29000 Impala服务不可用
        告警ID 告警级别 是否自动清除 29000 紧急 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-29000 Impala服务不可用
      • ALM-18008 ResourceManager堆内存使用率超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18008 ResourceManager堆内存使用率超过阈值
      • ALM-16046 Hive数据仓库权限被修改
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16046 Hive数据仓库权限被修改
      • ALM-16048 Tez或者Spark库路径不存在
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16048 Tez或者Spark库路径不存在
      • ALM-18000 Yarn服务不可用
        告警ID 告警级别 是否自动清除 18000 紧急 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18000 Yarn服务不可用
      • ALM-18002 NodeManager心跳丢失
        检查NodeManager状态 1.在FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中找到当前告警,单击获取告警详细信息,在“附加信息”中获取丢失状态的节点。 2.确认处于丢失状态的节点是否是人为未经过退服操作,直接主动删除的主机。 是,执行步骤3。 否,执行步骤5。 3.选择“集群 > 待操作集群的名称 > 服务 > Yarn”,进入“配置”页面,选择“全部配置”,搜索“yarn.nodemanager.lost.alarm.threshold”,修改值为未退服主动删除的主机个数。设置成功后检查告警是否清除。 是,处理完毕。 否,执行步骤4。 4.手动清除此告警,后续删除主机前务必进行退服操作。 5.在FusionInsight Manager界面,选择“集群> 主机”,查看步骤1中获取的节点是否健康。 是,执行步骤7。 否,执行步骤6。 6.参考“ALM12006 节点故障”的操作步骤进行处理,节点恢复正常后,查看本告警是否恢复。 是,处理完毕。 否,执行步骤7。 检查进程状态 7.在FusionInsight Manager界面,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 实例”,查看是否存在状态为非“良好”的NodeManager。 是,执行步骤10。 否,执行步骤8。 8.确认此NodeManager实例是否被删除。 是,执行步骤9。 否,执行步骤11。 9.重启ResourceManager的主备实例,然后检查该告警是否恢复。 是,处理完毕。 否,执行步骤13。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18002 NodeManager心跳丢失
      • ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
        收集故障信息 7.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 8.在“服务”中勾选待操作集群的“ResourceManager”。 9.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 10.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
      • ALM-12051 磁盘Inode使用率超过阈值
        告警ID 告警级别 是否自动清除 12051 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12051 磁盘Inode使用率超过阈值
      • ALM-12070 controller资源异常
        收集故障信息 6.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”中勾选“Controller”和“OmmServer”,单击“确定”。 8.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 9.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12070 controller资源异常
      • ALM-16045 Hive数据仓库被删除
        告警ID 告警级别 是否自动清除 16045 紧急 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16045 Hive数据仓库被删除
      • ALM-16047 HiveServer已从Zookeeper注销
        本章节主要介绍ALM16047 HiveServer已从Zookeeper注销的告警。 告警解释 系统每60秒周期性检测Hive服务,若Hive在Zookeeper上的注册信息丢失,或者Hive无法连接上Zookeeper,将会发出告警。 告警属性 告警ID 告警级别 是否自动清除 16047 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 当无法在Zookeeper上读取到Hive的配置,将会导致HiveServer不可用。 可能原因 网络故障。 ZooKeeper实例状态异常。 处理步骤 重启相关实例 1.登录FusionInsight Manager,在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“Hive解注Zookeeper”所在行的下拉菜单,在“定位信息”中查看告警上报的角色名并确定实例IP地址。 2.选择“集群 > 待操作集群的名称 > 服务 > Hive > 实例”,勾选上报告警IP对应的实例,选择“更多 > 重启实例”。 3.重启完成后,等待5分钟,查看告警是否消除。 是,处理完毕。 否,执行步骤4。 收集故障信息 4.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 5.在“服务”中勾选待操作集群的“Hive”。 6.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 7.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16047 HiveServer已从Zookeeper注销
      • ALM-17004 Oozie堆内存使用率超过阈值
        本章节主要介绍ALM17004 Oozie堆内存使用率超过阈值的告警。 告警解释 系统每60秒周期性检测Oozie服务堆内存使用状态,当检测到Oozie实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 17004 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 堆内存溢出可能导致服务崩溃。 可能原因 该节点Oozie实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Oozie堆内存使用率超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Oozie > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > 内存”中的“Oozie堆内存使用率”,单击“确定”。 3.查看Oozie使用的堆内存是否已达到Oozie设定的阈值(默认值为最大堆内存的95%)。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务> Oozie > 配置”,选择“全部配置”。在搜索栏里搜索“GCOPTS”参数,将“Xmx”的值根据实际情况调大,并单击“保存”,单击“确定”。 说明 admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。 5.重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-17004 Oozie堆内存使用率超过阈值
      • ALM-26054 Nimbus堆内存使用率超过阈值
        收集故障信息。 6. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7. 在“服务”中勾选待操作集群的如下节点信息。 NodeAgent Storm 8. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 9. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-26054 Nimbus堆内存使用率超过阈值
      • ALM-26051 Storm服务不可用
        检查主备Nimbus状态 8.选择“集群 > 待操作集群的名称 > 服务 > Storm Nimbus”,进入Nimbus实例页面。 9.查看“角色”中是否存在且仅存在一个状态为主的Nimbus节点。 是,执行步骤13。 否,执行步骤10。 10.勾选两个Nimbus角色实例,选择“更多 > 重启实例”,查看是否重启成功。 是,执行步骤11。 否,执行步骤13。 11.重新登录FusionInsight Manager管理界面,选择“集群 > 待操作集群的名称 > 服务 > Storm > Nimbus”,查看运行状态是否为“良好”。 是,执行步骤12。 否,执行步骤13。 12.等待30秒,查看告警是否恢复。 是,处理完毕。 否,执行步骤13。 收集故障信息 13.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 14.在“服务”中勾选待操作集群的如下节点信息。 KrbServer 说明 普通模式不需要下载KrbServer日志。 ZooKeeper Storm 15.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 16.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-26051 Storm服务不可用
      • ALM-26053 Storm Slot使用率超过阈值
        告警ID 告警级别 是否自动清除 26053 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-26053 Storm Slot使用率超过阈值
      • ALM-12046 网络写包丢包率超过阈值
        检查网络是否异常 4.联系系统管理员,检查网络是否存在异常。 是,恢复网络故障,执行步骤 5。 否,执行步骤 6。 5.等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤6。 收集故障信息 6.在主集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 7.在“服务”中勾选“OMS”,单击“确定”。 8.设置“主机”为告警所在节点和主OMS节点。 9.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。 10.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-12046 网络写包丢包率超过阈值
      • ALM-26052 Storm服务可用Supervisor数量小于阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-26052 Storm服务可用Supervisor数量小于阈值
      • ALM-25500 KrbServer服务不可用
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-25500 KrbServer服务不可用
      • ALM-14010 NameService服务异常
        检查JournalNode实例状态 6.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务”。 7.选择“HDFS > 实例”。 8.在实例页面中,查看JournalNode的“运行状态”是否为“良好”。 是,执行步骤11。 否,执行步骤9。 9.选择故障的JournalNode,选择“更多 > 重启实例”。查看JournalNode能否成功启动。 是,执行步骤10。 否,执行步骤24。 10.在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤11。 检查DataNode实例状态 11.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HDFS”。 12.单击“实例”查看所有DataNode节点的“运行状态”是否为“良好”。 是,执行步骤15。 否,执行步骤13。 13.单击“实例”。在DataNode管理页面,选择故障DataNode,选择“更多 > 重启实例”。查看DataNode能否成功启动。 是,执行步骤14。 否,执行步骤15。 14.在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤15。 检查磁盘状态 15.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 主机”。 16.在“磁盘”列,检查磁盘空间是否不足。 是,执行步骤17。 否,执行步骤19。 17.对磁盘进行扩容。 18.在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤19。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14010 NameService服务异常
      • ALM-14028 待补齐的块数超过阈值
        告警ID 告警级别 是否自动清除 14028 次要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14028 待补齐的块数超过阈值
      • ALM-16002 Hive SQL执行成功率低于阈值
        检查HDFS、Yarn、ZooKeeper等是否正常 8.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务”。 9.在服务列表查看HDFS、Yarn、ZooKeeper等服务是否正常。 是,执行步骤12。 否,执行步骤10。 10.查看告警界面的相关告警,参照对应告警帮助进行处理。 11.输入正确的HQL语句,观察命令是否正确执行。 是,执行步骤12。 否,执行步骤13。 12.等待一分钟,查看本告警是否清除。 是,处理结束。 否,执行步骤13。 收集故障信息 13.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 14.在“服务”中勾选待操作集群的如下节点信息。 Mapreduce Hive 15.单击右上角的设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 16.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16002 Hive SQL执行成功率低于阈值
      • ALM-16004 Hive服务不可用
        检查Hive与ZooKeeper、HDFS、Yarn和DBService之间的网络连接 17.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Hive”。 18.单击“实例”。 显示HiveServer实例列表。 19.单击“HiveServer”行的“主机名称”。 弹出HiveServer主机状态页面。 20.记录“基本信息”下的IP地址。 21.以omm用户通过步骤20获取的IP地址登录HiveServer所在的主机。 22.执行ping命令,查看HiveServer所在主机与ZooKeeper、HDFS、Yarn和DBService服务所在主机的网络连接是否正常。(获取ZooKeeper、HDFS、Yarn和DBService服务所在主机的IP地址的方式和获取HiveServer IP地址的方式相同。) 是,执行步骤25。 否,执行步骤23。 23.联系网络管理员恢复网络。 24.在告警列表中,查看“Hive服务不可用”告警是否清除。 是,处理完毕。 否,执行步骤25。 收集故障信息 25.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 26.在“服务”中勾选待操作集群的如下节点信息。 ZooKeeper HDFS Yarn DBService Hive 27.单击右上角的设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 28.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-16004 Hive服务不可用
      • ALM-24015 Flume MonitorServer证书文件已过期
        本章节主要介绍ALM24015 Flume MonitorServer证书文件已过期的告警。 告警解释 MonitorServer每隔一个小时健康检查时,检查当前系统中的证书文件是否已过期。如果服务端证书已过期,产生该告警。服务端证书恢复的有效期内,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24015 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 可能原因 MonitorServer证书文件已过期。 处理步骤 查看告警信息 1.登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM24015 MonitorServer证书文件已过期 > 定位信息”。查看告警上报的实例的IP地址。 检查系统中合法证书文件的有效期,重新生成证书文件 2.以root用户登录告警所在节点主机,并执行su omm切换用户。 3.执行以下命令进入MonitorServer证书目录。 cd ${BIGDATAHOME}/FusionInsightPorter/install/FusionInsightFlume/flume/conf 4.执行以下命令查看用户证书的生效时间与失效时间,查看目前时间是否在有效期内。 openssl x509 noout text in mssChat.crt 是,执行步骤9。 否,执行步骤5。 5.执行以下命令进入Flume脚本目录。 cd ${BIGDATAHOME}/FusionInsightPorter/install/FusionInsightFlume/flume/bin 6.执行以下命令重新生成证书,等待1小时,观察此告警是否被清除。 sh geneJKS.sh m sKitty12@ n cKitty12@ 是,执行步骤8。 否,执行步骤7。 7.使用omm用户在Flume实例产生告警的节点,重复执行步骤5~步骤6,等待1小时,观察此告警是否被清除。 是,执行步骤8。 否,执行步骤9。 8.查看系统在定时检查时是否会再次产生此告警。 是,执行步骤9。 否,处理完毕。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24015 Flume MonitorServer证书文件已过期
      • ALM-14023 总副本预留磁盘空间所占比率超过阈值
        可能原因 告警阈值配置不合理。 HDFS集群配置的磁盘空间不足。 HDFS的业务访问量太大,超过了已有DataNode的负载能力。 处理步骤 查看阈值设置是否合理 1.在FusiongInsight Manager首页,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS > 磁盘 > 总副本预留磁盘空间所占比率”,查看该告警阈值设置是否合理(默认90%为合理值,用户可以根据自己的实际需求调节)。 是,执行步骤4。 否,执行步骤2。 2.根据实际服务的使用情况,在“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS > 磁盘 > 总副本预留磁盘空间所单击率”页面单击“修改”更改阈值。 3.等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤4。 查看是否有磁盘空间不足告警 4.在FusionInsight Manager首页,选择“运维 > 告警 > 告警”查看是否存在告警“ALM14001 HDFS磁盘空间使用率超过阈值”或“ALM14002 DataNode磁盘空间使用率超过阈值”。 是,执行步骤5。 否,执行步骤7。 5.参考“ALM14001 HDFS磁盘空间使用率超过阈值”或“ALM14002 DataNode磁盘空间使用率超过阈值”进行处理,查看对应告警是否清除。 是,步骤6。 否,步骤7。 6.等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤7。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14023 总副本预留磁盘空间所占比率超过阈值
      • ALM-14027 DataNode磁盘故障
        修改磁盘权限 4.在“运维 > 告警 > 告警”页面,查看该告警的“定位信息”和“附加信息”,获取该告警上报的故障磁盘位置信息。 5.以root用户登录上报告警的节点,进入故障磁盘所在目录,使用ll命令查看该故障磁盘的权限是否711,用户是否为 omm 。 是,执行步骤8。 否,执行步骤6。 6.修改故障磁盘权限,如故障磁盘为data1,则执行以下命令: chown omm:wheel data1 chmod 711 data1 7.在Manager告警列表中,单击该告警“操作”列下面的“清除”,手动清除告警。然后选择“集群 > 服务 > HDFS > 实例”勾选该DataNode,选择“更多 > 重启实例”,等待5分钟,查看是否有新的告警上报。 否,处理完毕。 是,执行步骤8。 收集故障信息 8.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 9.在“服务”中勾选待操作集群的“HDFS”和“OMS”。 10.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后20分钟,单击“下载”。 11.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统不会自动清除此告警,需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14027 DataNode磁盘故障
      • ALM-13000 ZooKeeper服务不可用
        检查网络状态 5. 在ZooKeeper实例所在Linux节点使用ping命令,看能否ping通其他ZooKeeper实例所在节点的主机名。 是,执行步骤9。 否,执行步骤6。 6. 修改“/etc/hosts”中的IP信息,添加主机名与IP地址的对应关系。 7. 再次执行ping命令,查看能否在该ZooKeeper实例节点ping通其他ZooKeeper实例节点的主机名。 是,执行步骤8。 否,执行步骤23。 8. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤9。 检查KrbServer 服务状态(普通模式集群跳过此步骤) 9. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务”。 10. 查看KrbServer服务是否正常。 是,执行步骤13。 否,执行步骤11。 11. 参考“ALM25500 KrbServer服务不可用”进行处理,查看KrbServer服务是否能够恢复。 是,执行步骤12。 否,执行步骤23。 12. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤13。 检查ZooKeeper服务实例状态 13. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > quorumpeer”。 14. 查看ZooKeeper各实例是否正常。 是,执行步骤18。 否,执行步骤15。 15. 选中运行状态不为良好的实例,选择“更多 > 重启实例”。 16. 查看实例重启后运行状态是否为良好。 是,执行步骤17。 否,执行步骤18。 17. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤18。 检查磁盘状态 18. 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 >ZooKeeper > quorumpeer”查看ZooKeeper实例所在的各节点主机信息。 19. 在FusionInsight Manager首页,单击“主机”。 20. 在“磁盘”列,检查ZooKeeper实例所在的各节点数据磁盘空间是否不足(使用率超过百分之80)。 是,执行步骤21。 否,执行步骤23。 21. 参考“ALM12017 磁盘容量不足”进行处理,对磁盘进行扩容。 22. 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行步骤23。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13000 ZooKeeper服务不可用
      • ALM-13001 ZooKeeper可用连接数不足
        收集故障信息 15. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 16. 在“服务”中勾选待操作集群的“ZooKeeper”。 17. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 18. 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-13001 ZooKeeper可用连接数不足
      • ALM-24011 Flume证书文件即将过期
        告警ID 告警级别 是否自动清除 24011 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24011 Flume证书文件即将过期
      • ALM-24012 Flume证书文件已过期
        告警ID 告警级别 是否自动清除 24012 重要 是
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24012 Flume证书文件已过期
      • ALM-24008 Flume Server非堆内存使用率超过阈值
        参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24008 Flume Server非堆内存使用率超过阈值
      • ALM-24006 Flume Server堆内存使用率超过阈值
        本章节主要介绍ALM24006 Flume Server堆内存使用率超过阈值的告警。 告警解释 系统每60秒周期性检测Flume服务堆内存使用状态,当连续10次检测到Flume实例堆内存使用率超出阈值(最大内存的95%)时产生该告警,堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24006 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 堆内存溢出可能导致服务崩溃。 可能原因 该节点Flume实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率 1.在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Flume堆内存使用率超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 2.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > Agent > Flume堆内存使用率”,单击“确定”。 3.查看Flume使用的堆内存是否已达到Flume设定的阈值(默认值为最大堆内存的95%)。 是,执行步骤4。 否,执行步骤6。 4.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 配置”,选择“全部配置”,选择“Flume > 系统”。将“GCOPTS”参数中“Xmx”的值根据实际情况调大,并单击“保存”,单击“确定”。 说明 出现此告警时,说明当前flume server设置的堆内存无法满足当前数据传输所需的堆内存,建议堆内存调整为: channel capacity 最大单条数据大小通道个数,但xmx参数值不能超过节点剩余内存。 5.重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行步骤6。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24006 Flume Server堆内存使用率超过阈值
      • ALM-24005 Flume传输数据异常
        检查Flume Sink配置的IP所在节点与故障节点的网络状态 9.本地打开用户自定义配置文件properties.properties,搜索配置文件中是否有“type avro”关键字确认Flume Sink是否是avro类型。 是,执行10。 否,执行步骤13。 10.以root用户登录故障节点所在主机,执行ping Flume Sink配置的IP地址命令查看对端主机是否可以ping通。 是,执行步骤13。 否,执行步骤11。 11.联系网络管理员恢复网络。 12.等待一段时间后,在告警列表中,查看告警是否清除。 是,处理完毕。 否, 执行步骤13。 收集故障信息 13.在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 14.在“服务”框中勾选待操作集群的“Flume”。 15.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 16.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-24005 Flume传输数据异常
      • 1
      • ...
      • 211
      • 212
      • 213
      • 214
      • 215
      • ...
      • 281
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      弹性云主机 ECS

      物理机 DPS

      多活容灾服务

      GPU云主机

      镜像服务 IMS

      训推服务

      公共算力服务

      模型推理服务

      智算一体机

      推荐文档

      快速入门

      帮助中心

      EIP解绑和批量解绑

      导出数据

      错误日志

      如何修改发票抬头

      云课堂 第七课:使用对等连接在天翼云两个用户的云网络

      使用场景

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号