翼MapReduce MRS支持的事件列表 翼MapReduce(翼MR)是一种基于云计算平台的数据处理分析服务,打造了高可靠、高安全、易使用的运行维护平台,对外提供大容量数据的存储和分析能力,可解决用户实时性要求不高的海量数据存储和处理需求,可以独立申请和使用托管Hadoop、Spark、HBase和Hive组件。 支持的事件列表如下: 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 DBServer主备倒换 dbServerSwitchover 次要 DBServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致。 连续触发主备倒换可能影响Hive服务正常使用,导致Hive服务不可用。 Flume Channel溢出 flumeChannelOverflow 次要 Flume Channel溢出 确认flume的channel配置是否合理,业务量是否有突增。 Flume任务无法正常写入数据到后端。 NameNode主备倒换 namenodeSwitchover 次要 NameNode主备倒换 主备倒换需要和运维人员确认是否为正常操作导致。 连续触发主备倒换可能影响HDFS服务正常使用,读写HDFS文件可能失败。 ResourceManager主备倒换 resourceManagerSwitchover 次要 ResourceManager主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Yarn服务正常使用,导致任务出现异常甚至失败 JobHistoryServer主备倒换 jobHistoryServerSwitchover 次要 JobHistoryServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响MapReduce服务正常使用,导致任务日志读取异常 HMaster主备倒换 hmasterFailover 次要 HMaster主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响HBase服务正常使用 Hue发生主备切换 hueFailover 次要 Hue发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 主备倒换可能影响HUE服务正常使用,导致页面无法使用等问题 Impala HaProxy服务发生主备切换 impalaHaProxyFailover 次要 Impala HaProxy服务发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Impala服务正常使用 Impala StateStoreCatalog服务发生主备切换 impalaStateStoreCatalogFailover 次要 Impala StateStoreCatalog服务发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Impala服务正常使用 LdapServer主备倒换 ldapServerFailover 次要 LdapServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响LdapServer服务正常使用 Loader主备倒换 loaderSwitchover 次要 Loader主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 主备倒换可能影响Loader服务正常使用 Manager主备倒换 managerSwitchover 提示 Manager主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 Manager主备倒换可能导致Manager页面无法正常访问,部分监控可能出现异常数值 作业执行失败 jobRunningFailed 提示 作业执行失败 查看作业管理页面,确认失败任务是否有异常 作业执行过程出现失败 作业被终止 jobkilled 提示 作业被终止 确认任务是否人为下发终止命令 作业执行过程被终止 Oozie工作流执行失败 oozieWorkflowExecutionFailure 次要 Oozie工作流执行失败 查看Oozie日志,确认任务失败原因 Oozie工作流执行失败 Oozie定时任务执行失败 oozieScheduledJobExecutionFailure 次要 Oozie定时任务执行失败 查看Oozie日志,确认任务失败原因 Oozie定时任务执行失败 ClickHouse服务不可用 clickHouseServiceUnavailable 紧急 ClickHouse服务不可用 请参考《MapReduce服务用户指南》的“ALM45425 ClickHouse服务不可用”章节。 ClickHouse服务异常,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 DBService服务不可用 dbServiceServiceUnavailable 紧急 DBService服务不可用 请参考《MapReduce服务用户指南》的“ALM27001 DBService服务不可用”章节。 数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。 DBService主备节点间心跳中断 dbServiceHeartbeatInterruption BetweentheActiveAndStandbyNodes 重要 DBService主备节点间心跳中断 请参考《MapReduce服务用户指南》的“ALM27003 DBService主备节点间心跳中断”章节。 DBService主备间心跳中断时只有一个节点提供服务,一旦该节点故障,再无法切换到备节点,就会服务不可用。 DBService主备数据不同步 dataInconsistencyBetween ActiveAndStandbyDBServices 紧急 DBService主备数据不同步 请参考《MapReduce服务用户指南》的“ALM27004 DBService主备数据不同步”章节。 主备DBServer数据不同步,如果此时主实例异常,则会出现数据丢失或者数据异常的情况。 数据库进入只读模式 databaseEnterstheReadOnlyMode 紧急 数据库进入只读模式 请参考《MapReduce服务用户指南》的“ALM27007 数据库进入只读模式”章节。 数据库进入只读模式,业务数据丢失。 Flume服务不可用 flumeServiceUnavailable 紧急 Flume服务不可用 请参考《MapReduce服务用户指南》的“ALM24000 Flume服务不可用”章节。 当Flume服务不可用时,Flume不能正常工作,数据传输业务中断。 Flume Agent异常 flumeAgentException 重要 Flume Agent异常 请参考《MapReduce服务用户指南》的“ALM24001 Flume Agent异常”章节。 产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。 Flume Client连接中断 flumeClientDisconnected 重要 Flume Client连接中断 请参考《MapReduce服务用户指南》的“ALM24003 Flume Client连接中断”章节。 产生告警的Flume Client无法与Flume Server端进行通信,Flume Client端的数据无法传输到Flume Server端。 Flume读取数据异常 exceptionOccursWhenFlumeReadsData 重要 Flume读取数据异常 请参考《MapReduce服务用户指南》的“ALM24004 Flume读取数据异常”章节。 如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。 Flume传输数据异常 exceptionOccursWhenFlumeTransmitsData 重要 Flume传输数据异常 请参考《MapReduce服务用户指南》的“ALM24005 Flume传输数据异常”章节。 Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 Flume 证书文件非法或已损坏 flumeCertificateFileIsinvalid 重要 Flume 证书文件非法或已损坏 请参考《MapReduce服务用户指南》的“ALM24010 Flume证书文件非法或已损坏”章节。 Flume证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 Flume 证书文件即将过期 flumeCertificateFileIsAboutToExpire 重要 Flume 证书文件即将过期 请参考《MapReduce服务用户指南》的“ALM24011 Flume证书文件即将过期”章节。 Flume证书文件即将失效,对系统目前运行无影响。 Flume 证书文件已过期 flumeCertificateFileIsExpired 重要 Flume 证书文件已过期 请参考《MapReduce服务用户指南》的“ALM24012 Flume证书文件已过期”章节。 Flume证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件失效 flumeMonitorServerCertificateFileIsInvalid 重要 Flume MonitorServer证书文件失效 请参考《MapReduce服务用户指南》的“ALM24013 Flume MonitorServer证书文件非法或已损坏”章节。 MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件即将过期 flumeMonitorServerCertificate FileIsAboutToExpire 重要 Flume MonitorServer证书文件即将过期 请参考《MapReduce服务用户指南》的“ALM24014 Flume MonitorServer证书文件即将过期”章节。 MonitorServer证书文件即将失效,对系统目前运行无影响。 Flume MonitorServer证书文件已过期 flumeMonitorServerCertificateFileIsExpired 重要 Flume MonitorServer证书文件已过期 请参考《MapReduce服务用户指南》的“ALM24015 Flume MonitorServer证书文件已过期”章节。 MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 HDFS服务不可用 hdfsServiceUnavailable 紧急 HDFS服务不可用 请参考《MapReduce服务用户指南》的“ALM14000 HDFS服务不可用”章节。 无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 NameService服务异常 nameServiceServiceUnavailable 重要 NameService服务异常 请参考《MapReduce服务用户指南》的“ALM14010 NameService服务异常”章节。 无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 DataNode数据目录配置不合理 datanodeDataDirectoryIsNotConfiguredProperly 重要 DataNode数据目录配置不合理 请参考《MapReduce服务用户指南》的“ALM14011 DataNode数据目录配置不合理”章节。 如果将DataNode数据目录挂载在根目录等系统关键目录,长时间运行后会将根目录写满,导致系统故障。不合理的DataNode数据目录配置,会造成HDFS的性能下降。 Journalnode数据不同步 journalnodeIsOutOfSynchronization 重要 Journalnode数据不同步 请参考《MapReduce服务用户指南》的“ALM14012 Journalnode数据不同步”章节。 当一个JournalNode节点工作状态异常时,其数据就会与其他JournalNode节点的数据不同步。如 果超过一半的JournalNode节点的数据不同步时,NameNode将无法工作,导致HDFS服务不可用。 NameNode FsImage文件更新失败 failedToUpdateTheNameNodeFsImageFile 重要 NameNode FsImage文件更新失败 请参考《MapReduce服务用户指南》的“ALM14013 NameNode FsImage文件更新失败”章节。 如果主NameNode数据目录的FsImage没有更新,则说明HDFS元数据合并功能异常,需要修复。 如不修复,HDFS在运行一段时间后,Editlog会一直增长。此时如果重启HDFS,由于要加载非常多的Editlog,会导致启动非常耗时。另外,该告警的产生也说明备NameNode功能异常,导致NameNode的HA机制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 DataNode磁盘故障 datanodeDiskFault 重要 DataNode磁盘故障 请参考《MapReduce服务用户指南》的“ALM14027 DataNode磁盘故障”章节。 上报DataNode磁盘故障告警时,表示该DataNode节点上存在故障的磁盘分区,可能会导致已写入的文件丢失。 Yarn服务不可用 yarnServiceUnavailable 紧急 Yarn服务不可用 请参考《MapReduce服务用户指南》的“ALM18000 Yarn服务不可用”章节。 集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 NodeManager心跳丢失 nodemanagerHeartbeatLost 重要 NodeManager心跳丢失 请参考《MapReduce服务用户指南》的“ALM18002 NodeManager心跳丢失”章节。 丢失的NodeManager节点无法提供Yarn服务。容器减少,集群性能下降。 NodeManager不健康 nodemanagerUnhealthy 重要 NodeManager不健康 请参考《MapReduce服务用户指南》的“ALM18003 NodeManager不健康”章节。 故障的NodeManager节点无法提供Yarn服务。容器减少,集群性能下降。 Yarn 任务执行超时 yarnApplicationTimeout 次要 Yarn 任务执行超时 请参考《MapReduce服务用户指南》的“ALM18020 Yarn任务执行超时”章节。 任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 Mapreduce服务不可用 mapreduceServiceUnavailable 紧急 Mapreduce服务不可用 请参考《MapReduce服务用户指南》的“ALM18021 Mapreduce服务不可用”章节。 集群无法提供Mapreduce服务,如无法通过Mapreduce查看任务日志,无法提供Mapreduce服务的日志归档功能等。 Yarn队列资源不足 insufficientYarnQueueResources 次要 Yarn队列资源不足 请参考《MapReduce服务用户指南》的“ALM18022 Yarn队列资源不足”章节。 应用任务结束时间变长。新应用提交后长时间无法运行。 HBase服务不可用 hbaseServiceUnavailable 紧急 HBase服务不可用 请参考《MapReduce服务用户指南》的“ALM19000 HBase服务不可用”章节。 无法进行数据读写和创建表等操作。 HBase系统表目录或文件丢失 systemTablePathOrFileOfHBaseIsMissing 紧急 HBase系统表目录或文件丢失 请参考《MapReduce服务用户指南》的“ALM19012 HBase系统表目录或文件丢失”章节。 HBase服务重启/启动失败。 Hive服务不可用 hiveServiceUnavailable 紧急 Hive服务不可用 请参考《MapReduce服务用户指南》的“ALM16004 Hive服务不可用”章节。 Hive无法提供数据加载,查询,提取服务。 Hive数据仓库被删除 hiveDataWarehouseIsDeleted 紧急 Hive数据仓库被删除 请参考《MapReduce服务用户指南》的“ALM16045 Hive数据仓库被删除”章节。 Hive默认数据仓库被删除,会导致在默认数据仓库中创建库、创建表失败,影响业务正常使用。 Hive数据仓库权限被修改 hiveDataWarehousePermissionIsModified 紧急 Hive数据仓库权限被修改 请参考《MapReduce服务用户指南》的“ALM16046 Hive数据仓库权限被修改”章节。 Hive默认数据仓库的权限被修改,会影响当前用户,用户组,其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。 HiveServer已从Zookeeper注销 hiveServerHasBeenDeregisteredFromZookeeper 重要 HiveServer已从Zookeeper注销 请参考《MapReduce服务用户指南》的“ALM16047 HiveServer已从Zookeeper注销”章节。 当无法在Zookeeper上读取到Hive的配置,将会导致HiveServer不可用。 tez或者spark库路径不存在 tezlibOrSparklibIsNotExist 重要 tez或者spark库路径不存在 请参考《MapReduce服务用户指南》的“ALM16048 Tez或者Spark库路径不存在”章节。 Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark的功能。 Hue服务不可用 hueServiceUnavailable 紧急 Hue服务不可用 请参考《MapReduce服务用户指南》的“ALM20002 Hue服务不可用”章节。 系统无法提供数据加载,查询,提取服务。 Impala服务不可用 impalaServiceUnavailable 紧急 Impala服务不可用 请参考《MapReduce服务用户指南》的“ALM29000 Impala服务不可用”章节。 Impala服务异常,无法通过FusionInsight Manager对Impala进行集群操作,无法使用Impala服务功能。 Kafka服务不可用 kafkaServiceUnavailable 紧急 Kafka服务不可用 请参考《MapReduce服务用户指南》的“ALM38000 Kafka服务不可用”章节。 集群无法对外提供Kafka服务,用户无法执行新的Kafka任务。 Kafka默认用户状态异常 statusOfKafkaDefaultUserIsAbnormal 紧急 Kafka默认用户状态异常 请参考《MapReduce服务用户指南》的“ALM38007 Kafka默认用户状态异常”章节。 Kafka默认用户状态异常,会影响Broker之间的元数据同步,以及Kafka与ZooKeeper之间的交互,进而影响业务生产、消费和Topic的创建、删除等操作。 Kafka数据目录状态异常 abnormalKafkaDataDirectoryStatus 重要 Kafka数据目录状态异常 请参考《MapReduce服务用户指南》的“ALM38008 Kafka数据目录状态异常”章节。 Kafka数据目录状态异常,会导致该数据目录上所有Partition的当前副本下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。 存在单副本的Topic topicsWithSingleReplica 警告 存在单副本的Topic 请参考《MapReduce服务用户指南》的“ALM38010 存在单副本的Topic”章节。 单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 KrbServer服务不可用 krbServerServiceUnavailable 紧急 KrbServer服务不可用 请参考《MapReduce服务用户指南》的“ALM25500 KrbServer服务不可用”章节。 告警发生时,不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。 Kudu服务不可用 kuduServiceUnavailable 紧急 Kudu服务不可用 请参考《MapReduce服务用户指南》的“ALM29100 Kudu服务不可用”章节。 用户无法使用Kudu服务。 LdapServer服务不可用 ldapServerServiceUnavailable 紧急 LdapServer服务不可用 请参考《MapReduce服务用户指南》的“ALM25000 LdapServer服务不可用”章节。 告警发生时,不能对集群中的KrbServer和LdapServer用户进行任何操作。 例如,无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色,也无法修改用户密码。集群中原有的用户验证不受影响。 LdapServer数据同步异常 abnormalLdapServerDataSynchronization 紧急 LdapServer数据同步异常 请参考《MapReduce服务用户指南》的“ALM25004 LdapServer数据同步异常”章节。 LdapServer数据不一致时,有可能是Manager上的LdapServer数据损坏,也有可能是集群上的LdapServer数据损坏,此时数据损坏的LdapServer进程将无法对外提供服务,影响Manager和集群的认证功能。 Nscd服务异常 nscdServiceIsAbnormal 重要 Nscd服务异常 请参考《MapReduce服务用户指南》的“ALM25005 Nscd服务异常”章节。 nscd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到Ldap中的数据,影响上层业务。 Sssd服务异常 sssdServiceIsAbnormal 重要 Sssd服务异常 请参考《MapReduce服务用户指南》的“ALM25006 Sssd服务异常”章节。 sssd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。 Loader服务不可用 loaderServiceUnavailable 紧急 Loader服务不可用 请参考《MapReduce服务用户指南》的“ALM23001 Loader服务不可用”章节。 如果Loader服务不可用,数据加载,导入,转换的功能也不可用。 Oozie服务不可用 oozieServiceUnavailable 紧急 Oozie服务不可用 请参考《MapReduce服务用户指南》的“ALM17003 Oozie服务不可用”章节。 无法使用Oozie服务提交作业。 Ranger服务不可用 rangerServiceUnavailable 紧急 Ranger服务不可用 请参考《MapReduce服务用户指南》的“ALM45275 Ranger服务不可用”章节。 当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 RangerAdmin状态异常 abnormalRangerAdminStatus 重要 RangerAdmin状态异常 请参考《MapReduce服务用户指南》的“ALM45276 RangerAdmin状态异常”章节。 当存在单个RangerAdmin状态异常时,不影响Ranger原生UI访问;当两个RangerAdmin状态异常时,Ranger原生UI无法访问,无法执行创建、修改、删除策略等操作。 Spark2x服务不可用 spark2xServiceUnavailable 紧急 Spark2x服务不可用 请参考《MapReduce服务用户指南》的“ALM43001 Spark2x服务不可用”章节。 用户提交的Spark任务执行失败。 Storm服务不可用 stormServiceUnavailable 紧急 Storm服务不可用 请参考《MapReduce服务用户指南》的“ALM26051 Storm服务不可用”章节。 集群无法对外提供Storm服务,用户无法执行新的Storm任务。 ZooKeeper服务不可用 zooKeeperServiceUnavailable 紧急 ZooKeeper服务不可用 请参考《MapReduce服务用户指南》的“ALM13000 ZooKeeper服务不可用”章节。 ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件可能无法正常运行。 ZooKeeper中组件顶层目录的配额设置失败 failedToSetTheQuotaOfTopDirectoriesOf ZooKeeperComponent 次要 ZooKeeper中组件顶层目录的配额设置失败 请参考《MapReduce服务用户指南》的“ALM13005 ZooKeeper中组件顶层目录的配额设置失败”章节。 组件可以向对应的ZooKeeper顶层目录中写入大量数据,导致Zookeeper服务不可用。