云监控服务
更新时间 2026-02-04 15:09:43
最近更新时间: 2026-02-04 15:09:43
本页介绍如何通过云监控服务查看翼MR集群的监控数据以及配置告警规则。
从翼MR v2.15.3版本起,用户可以通过云监控服务查看翼MR集群的主机与组件状态,并支持设置相关监控指标的告警规则,配置短信与邮件告警。如需了解产品详细情况,可参考云监控服务。
操作步骤
登录天翼云官网,选择“云监控服务”。
点击进入云监控服务的管理控制台。
在左侧导航栏选择云服务监控中的“翼MapReduce监控”,即可查看该用户在当期资源池下的翼MR集群监控。
操作栏中的查看监控图表,可以查看集群相关监控指标,支持自定义查看的时间段。
点击操作栏内的创建告警规则,或点击左侧导航栏中告警服务中的“告警规则”,即可配置告警策略、通知与规则。
说明
当前仅华东1、西南1、华北2、上海36、华南2、武汉41、杭州7、西安7、西南2-贵州资源池的集群支持使用该服务。
仅支持有翼MR集群-节点查询权限的用户在云监控服务中查询目标集群的监控数据,管理员可通过翼MR的角色管理与用户权限功能为用户赋权。
监控指标列表
| 类别 | 指标名称 |
|---|---|
| 主机 | cpu使用率 |
| 主机 | 系统15分钟负载 |
| 主机 | 内存空闲率 |
| 主机 | 磁盘存储空闲率 |
| 主机 | 磁盘inode空闲率 |
| 主机 | 磁盘IO使用率 |
| 主机 | 网卡每秒接收丢包数 |
| 主机 | 网卡每秒接收错误包 |
| 主机 | 网卡每秒发送丢包数 |
| 主机 | 网卡每秒发送错误包数 |
| 主机 | 节点指标采集器可用状态 |
| 主机 | 主机运行时间 |
| 主机 | 磁盘挂载状态 |
| 主机 | 磁盘是否只读异常 |
| 主机 | 网卡每秒接收的比特数 |
| 主机 | 网卡每秒发送的比特数 |
| HDFS | HDFS进程状态 |
| HDFS | HDFS NameNode主备状态 |
| HDFS | HDFS rpc端口处理平均耗时 |
| HDFS | HDFS rpc端口请求队列长度 |
| HDFS | HDFS存储使用率 |
| HDFS | PendingDeletionBlocks |
| HDFS | MissingBlocks |
| HDFS | HDFS每秒创建文件数 |
| HDFS | hdfs锁队列等待线程数 |
| HDFS | HDFS距离上次checkpoint时间 |
| HDFS | HDFS NameNode内存使用率 |
| HDFS | HDFS DataNode节点存活比例 |
| HDFS | 存储使用总量 |
| HDFS | 数据块总量 |
| YARN | YARN进程状态 |
| YARN | YARN ResourceManager主从状态 |
| YARN | pending作业数 |
| YARN | pending container数 |
| YARN | 心跳处理时延 |
| YARN | 每秒心跳次数 |
| YARN | YARN NodeManager存活节点比例 |
| YARN | YARN ResourceManager内存使用率 |
| YARN | YARN ResourceManager主备状态 |
| Hive | Hive进程状态 |
| Hive | hiveserver2 10000端口连接数 |
| Hive | hiveserver2 10000端口close wait数 |
| Hive | hiveserver2 端口监听状态 |
| Hive | hiveserver2堆内存使用率 |
| Hive | hiveserver2 10000端口连接数 |
| Hive | hiveserver2 10000端口close wait数 |
| Hive | Hive metastore 端口监听状态 |
| Hive | hiveserver2堆内存使用率 |
| ZooKeeper | ZooKeeper进程状态 |
| ZooKeeper | ZooKeeper watch数量 |
| ZooKeeper | ZooKeeper活跃连接数 |
| ZooKeeper | ZooKeeper数据节点存储总量 |
| ZooKeeper | Kafka进程状态 |
| ZooKeeper | 离线目录数量 |
| ZooKeeper | 离线副本数 |
| ZooKeeper | 低于 min.insync.replicas 的分区数量 |
| ZooKeeper | 未保持同步的分区数量 |
| ZooKeeper | 活跃controller数量 |
| ZOOKEEPER | ZooKeeper请求延迟 |
| HBase | HBase 进程状态 |
| HBase | HBase master主从状态 |
| HBase | HBase regionserver rit数 |
| HBase | HBase master堆内存使用率 |
| HBase | HBase regionserver节点存活比例 |
| HBase | HBase regionserver堆内存使用率 |
| HBase | get操作平均耗时 |
| HBase | 99%的get操作耗时 |
| HBase | 请求平均处理耗时 |
| HBase | 每秒读请求数 |
| HBase | 每秒写请求数 |
| Doris | Doris进程状态 |
| Doris | 每分钟GC时间 |
| Doris | 平均每分钟查询错误数 |
| Doris | be存储资源使用率 |
| Doris | Doris 前端主机cpu平均使用率 |
| Doris | Doris 前端主机内存平均使用率 |
| Doris | Doris 后端主机cpu平均使用率 |
| Doris | Doris 后端主机内存平均使用率 |
| Doris | Doris 前端每秒查询数量 |
| Doris | Doris 前端每秒请求数量 |
| Elasticsearch | es进程状态 |
| Elasticsearch | es集群状态 |
| Elasticsearch | es 未分配shard数 |
| Elasticsearch | pending任务数量 |
| Elasticsearch | 文件系统剩余容量百分比 |
| Elasticsearch | JVM堆使用率 |
| Elasticsearch | rejected线程数 |
| Trino | Trino进程状态 |
| Trino | 健康节点比例 |
| Trino | JVM堆使用率 |
| OpenLDAP | openldap进程状态 |
| OpenLDAP | 389端口连接数 |
| Flink | Flink进程状态 |
| Flume | Flume进程状态 |
| Spark | Spark进程状态 |
| Kerberos | Kerberos进程状态 |
| Ranger | Ranger进程状态 |
| Kyuubi | Kyuubi进程状态 |
| Knox | Knox进程状态 |
| Kibana | Kibana进程状态 |
| Logstash | Logstash进程状态 |
| JeekeFS | JeekeFS进程状态 |
| KafkaUI | KafkaUI进程状态 |
| Amoro | Amoro 进程状态 |
| Tezui | TezUI 进程状态 |
| Tezui | TezUI 端口监听状态 |
| Hue | Hue 进程状态 |
| Hue | Hue 端口监听状态 |
| Hue | Hue Python第0代不可回收对象的5分钟增量 |
| Hue | Hue Python第1代不可回收对象的5分钟增量 |
| Hue | Hue Python第2代不可回收对象的5分钟增量 |
| Hue | Hue Django 500错误响应的5分钟增量 |
| DolphinScheduler | DolphinScheduler 进程状态 |
| DolphinScheduler | DolphinScheduler 系统当前的CPU使用率 |
| DolphinScheduler | DolphinScheduler 系统的平均负荷(1分钟) |
| DolphinScheduler | DolphinScheduler 各JVM进程CPU使用率 |
| DolphinScheduler | DolphinScheduler 各服务GC后长期存活堆内存的使用率 |
| DolphinScheduler | DolphinScheduler 各服务垃圾回收时间占比 |
| DolphinScheduler | DSApiServer 未捕获异常个数 |
| DolphinScheduler | DSAlertServer 等待发送的告警数量 |
| DolphinScheduler | DSApiServer 响应状态码的接口个数 |
| DolphinScheduler | DSMasterServer 1小时过载次数 |
| DolphinScheduler | DolphinScheduler 正在运行的工作流实例数量 |
| DolphinScheduler | DSWorkerServer 1小时过载次数 |
| DolphinScheduler | DSWorkerServer 上等待提交的任务总数 |
| DolphinScheduler | DSWorkerServer 上正在执行的任务总数 |
| DolphinScheduler | DSWorkerServer 1小时提交队列全满次数 |
| DolphinScheduler | DSAlertServer 5分钟未捕获异常个数 |