云监控服务
更新时间 2026-04-07 09:54:57
最近更新时间: 2026-04-07 09:54:57
本页介绍如何通过云监控服务查看翼MR集群的监控数据以及配置告警规则。
从翼MR v2.15.3版本起,用户可以通过云监控服务查看翼MR集群的主机与组件状态,并支持设置相关监控指标、系统事件的告警规则,配置短信与邮件告警。如需了解产品详细情况,可参考云监控服务。
操作步骤
登录天翼云官网,选择“云监控服务”。
点击进入云监控服务的管理控制台。
在左侧导航栏选择云服务监控中的“翼MapReduce监控”,即可查看该用户在当期资源池下的翼MR集群监控。
操作栏中的查看监控图表,可以查看集群相关监控指标,支持自定义查看的时间段。
点击操作栏内的创建告警规则,或点击左侧导航栏中告警服务中的“告警规则”,即可配置告警策略、通知与规则。
点击左侧导航栏事件监控中的系统事件,即可创建事件订阅并配置通知规则。
说明
当前仅华东1、西南1、华北2、上海36、华南2、武汉41、杭州7、西安7、西南2-贵州资源池的集群支持使用该服务。
仅支持有翼MR集群-节点查询权限的用户在云监控服务中查询目标集群的监控数据,管理员可通过翼MR的角色管理与用户权限功能为用户赋权。
监控指标列表
| 类别 | 指标名称 |
|---|---|
| 主机 | cpu使用率 |
| 主机 | 系统15分钟负载 |
| 主机 | 内存空闲率 |
| 主机 | 磁盘存储空闲率 |
| 主机 | 磁盘inode空闲率 |
| 主机 | 磁盘IO使用率 |
| 主机 | 网卡每秒接收丢包数 |
| 主机 | 网卡每秒接收错误包 |
| 主机 | 网卡每秒发送丢包数 |
| 主机 | 网卡每秒发送错误包数 |
| 主机 | 节点指标采集器可用状态 |
| 主机 | 主机运行时间 |
| 主机 | 磁盘挂载状态 |
| 主机 | 磁盘是否只读异常 |
| 主机 | 网卡每秒接收的比特数 |
| 主机 | 网卡每秒发送的比特数 |
| HDFS | HDFS进程状态 |
| HDFS | HDFS NameNode主备状态 |
| HDFS | HDFS rpc端口处理平均耗时 |
| HDFS | HDFS rpc端口请求队列长度 |
| HDFS | HDFS存储使用率 |
| HDFS | PendingDeletionBlocks |
| HDFS | MissingBlocks |
| HDFS | HDFS每秒创建文件数 |
| HDFS | hdfs锁队列等待线程数 |
| HDFS | HDFS距离上次checkpoint时间 |
| HDFS | HDFS NameNode内存使用率 |
| HDFS | HDFS DataNode节点存活比例 |
| HDFS | 存储使用总量 |
| HDFS | 数据块总量 |
| HDFS | HDFS存储空间使用百分比 |
| HDFS | HDFS存在损坏的磁盘 |
| HDFS | HDFS NameNode处于SafeMode |
| HDFS | HDFS NameNode Jvm暂停超过阈值的次数 |
| HDFS | HDFS DataNode Jvm暂停超过阈值的次数 |
| YARN | YARN进程状态 |
| YARN | YARN ResourceManager主从状态 |
| YARN | pending作业数 |
| YARN | pending container数 |
| YARN | 心跳处理时延 |
| YARN | 每秒心跳次数 |
| YARN | YARN NodeManager存活节点比例 |
| YARN | YARN ResourceManager内存使用率 |
| YARN | YARN ResourceManager主备状态 |
| YARN | YARN ResourceManager Container 分配的平均时间 |
| Hive | Hive进程状态 |
| Hive | hiveserver2 10000端口连接数 |
| Hive | hiveserver2 10000端口close wait数 |
| Hive | hiveserver2 端口监听状态 |
| Hive | hiveserver2堆内存使用率 |
| Hive | hiveserver2 10000端口连接数 |
| Hive | hiveserver2 10000端口close wait数 |
| Hive | Hive metastore 端口监听状态 |
| Hive | hiveserver2堆内存使用率 |
| ZooKeeper | ZooKeeper进程状态 |
| ZooKeeper | ZooKeeper watch数量 |
| ZooKeeper | ZooKeeper活跃连接数 |
| ZooKeeper | ZooKeeper数据节点存储总量 |
| ZooKeeper | ZooKeeper leader重新选主 |
| ZooKeeper | ZooKeeper的平均处理时间 |
| Kafka | Kafka进程状态 |
| Kafka | Kafka离线目录数量 |
| Kafka | Kafka离线副本数 |
| Kafka | Kafka低于 min.insync.replicas 的分区数量 |
| Kafka | Kafka未保持同步的分区数量 |
| Kafka | Kafka活跃controller数量 |
| Kafka | Kafka ZooKeeper请求延迟 |
| Kafka | Kafka broker访问zookeeper延迟时间 |
| Kafka | Kafka Broker请求队列积压的请求数量 |
| Kafka | Kafka 过去1分钟内触发的controller选举次数 |
| HBase | HBase 进程状态 |
| HBase | HBase master主从状态 |
| HBase | HBase regionserver rit数 |
| HBase | HBase master堆内存使用率 |
| HBase | HBase regionserver节点存活比例 |
| HBase | HBase regionserver堆内存使用率 |
| HBase | get操作平均耗时 |
| HBase | 99%的get操作耗时 |
| HBase | 请求平均处理耗时 |
| HBase | 每秒读请求数 |
| HBase | 每秒写请求数 |
| HBase | HBase正在使用的handler数量 |
| HBase | HBase等待执行的rpc队列长度 |
| Doris | Doris进程状态 |
| Doris | 每分钟GC时间 |
| Doris | 平均每分钟查询错误数 |
| Doris | be存储资源使用率 |
| Doris | Doris 前端主机cpu平均使用率 |
| Doris | Doris 前端主机内存平均使用率 |
| Doris | Doris 后端主机cpu平均使用率 |
| Doris | Doris 后端主机内存平均使用率 |
| Doris | Doris 前端每秒查询数量 |
| Doris | Doris 前端每秒请求数量 |
| Doris | Doris INSERT 加载中作业峰值 |
| Doris | Doris load任务失败率 |
| Doris | Doris集群最大compaction score |
| Doris | Doris集群FE的Minor GC持续时长 |
| Doris | Doris集群FE的Old GC持续时长 |
| Doris | Doris集群BE CPU使用率 |
| Doris | Doris DB当前事务数 |
| Elasticsearch | ES进程状态 |
| Elasticsearch | ES集群状态 |
| Elasticsearch | ES 未分配shard数 |
| Elasticsearch | pending任务数量 |
| Elasticsearch | 文件系统剩余容量百分比 |
| Elasticsearch | JVM堆使用率 |
| Elasticsearch | rejected线程数 |
| Trino | Trino进程状态 |
| Trino | 健康节点比例 |
| Trino | JVM堆使用率 |
| OpenLDAP | openldap进程状态 |
| OpenLDAP | 389端口连接数 |
| Flink | Flink进程状态 |
| Flume | Flume进程状态 |
| Spark | Spark进程状态 |
| Kerberos | Kerberos进程状态 |
| Ranger | Ranger进程状态 |
| Ranger | Ranger JVM堆使用率 |
| Kyuubi | Kyuubi进程状态 |
| Kyuubi | Kyuubi JVM Deadlock线程数 |
| Kyuubi | Kyuubi 服务堆内存使用率 |
| Kyuubi | Kyuubi 服务存活率 |
| Knox | Knox进程状态 |
| Kibana | Kibana进程状态 |
| Logstash | Logstash进程状态 |
| JeekeFS | JeekeFS进程状态 |
| KafkaUI | KafkaUI进程状态 |
| Amoro | Amoro 进程状态 |
| Tezui | TezUI 进程状态 |
| Tezui | TezUI 端口监听状态 |
| Hue | Hue 进程状态 |
| Hue | Hue 端口监听状态 |
| Hue | Hue Python第0代不可回收对象的5分钟增量 |
| Hue | Hue Python第1代不可回收对象的5分钟增量 |
| Hue | Hue Python第2代不可回收对象的5分钟增量 |
| Hue | Hue Django 500错误响应的5分钟增量 |
| DolphinScheduler | DolphinScheduler 进程状态 |
| DolphinScheduler | DolphinScheduler 系统当前的CPU使用率 |
| DolphinScheduler | DolphinScheduler 系统的平均负荷(1分钟) |
| DolphinScheduler | DolphinScheduler 各JVM进程CPU使用率 |
| DolphinScheduler | DolphinScheduler 各服务GC后长期存活堆内存的使用率 |
| DolphinScheduler | DolphinScheduler 各服务垃圾回收时间占比 |
| DolphinScheduler | DSApiServer 未捕获异常个数 |
| DolphinScheduler | DSAlertServer 等待发送的告警数量 |
| DolphinScheduler | DSApiServer 响应状态码的接口个数 |
| DolphinScheduler | DSMasterServer 1小时过载次数 |
| DolphinScheduler | DolphinScheduler 正在运行的工作流实例数量 |
| DolphinScheduler | DSWorkerServer 1小时过载次数 |
| DolphinScheduler | DSWorkerServer 上等待提交的任务总数 |
| DolphinScheduler | DSWorkerServer 上正在执行的任务总数 |
| DolphinScheduler | DSWorkerServer 1小时提交队列全满次数 |
| DolphinScheduler | DSAlertServer 5分钟未捕获异常个数 |
事件列表
类别 | 事件名称 |
|---|---|
| 运维操作 | 重启服务成功 |
| 重启服务失败 | |
| 启动服务成功 | |
| 启动服务失败 | |
| 停止服务成功 | |
| 停止服务失败 | |
| 置维护成功 | |
| 置维护失败 | |
| 取消维护成功 | |
| 取消维护失败 | |
| 重启实例成功 | |
| 重启实例失败 | |
| 启动实例成功 | |
| 启动实例失败 | |
| 停止实例成功 | |
| 停止实例失败 | |
| 滚动重启服务成功 | |
| 滚动重启服务失败 | |
| 滚动重启实例成功 | |
| 滚动重启实例失败 | |
| 滚动停止实例成功 | |
| 滚动停止实例失败 | |
| 服务监控 | OpenLDAP健康状态异常 |
| Kerberos健康状态异常 | |
| ZooKeeper健康状态异常 | |
| HDFS健康状态异常 | |
| YARN健康状态异常 | |
| Hive健康状态异常 | |
| Spark健康状态异常 | |
| HBase健康状态异常 | |
| Trino健康状态异常 | |
| Kyuubi健康状态异常 | |
| Doris健康状态异常 | |
| Ranger健康状态异常 | |
| Kafka健康状态异常 | |
| Knox健康状态异常 | |
| Flink健康状态异常 | |
| Flume健康状态异常 | |
| Pushgateway健康状态异常 | |
| Amoro健康状态异常 | |
| Hue健康状态异常 | |
| DolphinScheduler健康状态异常 | |
| Hive数据仓被删除 | |
| HBase_HMaster主备切换 | |
| YARN_ResourceManager主备切换 | |
| HDFS_NameNode主备切换 | |
| ZooKeeper_Leader切换 | |
| 元数据库连接异常 | |
| 系统操作 | 主机重启 |