云监控服务 本页介绍如何通过云监控服务查看翼MR集群的监控数据以及配置告警规则。 从翼MR v2.15.3版本起,用户可以通过云监控服务查看翼MR集群的主机与组件状态,并支持设置相关监控指标的告警规则,配置短信与邮件告警。如需了解产品详细情况,可参考云监控服务。 操作步骤 1. 登录天翼云官网,选择“云监控服务”。 2. 点击进入云监控服务的管理控制台。 3. 在左侧导航栏选择云服务监控中的“翼MapReduce监控”,即可查看该用户在当期资源池下的翼MR集群监控。 4. 操作栏中的查看监控图表,可以查看集群相关监控指标,支持自定义查看的时间段。 5. 点击操作栏内的创建告警规则,或点击左侧导航栏中告警服务中的“告警规则”,即可配置告警策略、通知与规则。 说明 当前仅华东1、西南1、华北2、上海36、华南2、武汉41、杭州7、西安7、西南2贵州资源池的集群支持使用该服务。 仅支持有翼MR集群节点查询权限的用户在云监控服务中查询目标集群的监控数据,管理员可通过翼MR的角色管理与用户权限功能为用户赋权。 监控指标列表 类别 指标名称 主机 cpu使用率 主机 系统15分钟负载 主机 内存空闲率 主机 磁盘存储空闲率 主机 磁盘inode空闲率 主机 磁盘IO使用率 主机 网卡每秒接收丢包数 主机 网卡每秒接收错误包 主机 网卡每秒发送丢包数 主机 网卡每秒发送错误包数 主机 节点指标采集器可用状态 主机 主机运行时间 主机 磁盘挂载状态 主机 磁盘是否只读异常 主机 网卡每秒接收的比特数 主机 网卡每秒发送的比特数 HDFS HDFS进程状态 HDFS HDFS NameNode主备状态 HDFS HDFS rpc端口处理平均耗时 HDFS HDFS rpc端口请求队列长度 HDFS HDFS存储使用率 HDFS PendingDeletionBlocks HDFS MissingBlocks HDFS HDFS每秒创建文件数 HDFS hdfs锁队列等待线程数 HDFS HDFS距离上次checkpoint时间 HDFS HDFS NameNode内存使用率 HDFS HDFS DataNode节点存活比例 HDFS 存储使用总量 HDFS 数据块总量 YARN YARN进程状态 YARN YARN ResourceManager主从状态 YARN pending作业数 YARN pending container数 YARN 心跳处理时延 YARN 每秒心跳次数 YARN YARN NodeManager存活节点比例 YARN YARN ResourceManager内存使用率 YARN YARN ResourceManager主备状态 Hive Hive进程状态 Hive hiveserver2 10000端口连接数 Hive hiveserver2 10000端口close wait数 Hive hiveserver2 端口监听状态 Hive hiveserver2堆内存使用率 Hive hiveserver2 10000端口连接数 Hive hiveserver2 10000端口close wait数 Hive Hive metastore 端口监听状态 Hive hiveserver2堆内存使用率 ZooKeeper ZooKeeper进程状态 ZooKeeper ZooKeeper watch数量 ZooKeeper ZooKeeper活跃连接数 ZooKeeper ZooKeeper数据节点存储总量 ZooKeeper Kafka进程状态 ZooKeeper 离线目录数量 ZooKeeper 离线副本数 ZooKeeper 低于 min.insync.replicas 的分区数量 ZooKeeper 未保持同步的分区数量 ZooKeeper 活跃controller数量 ZOOKEEPER ZooKeeper请求延迟 HBase HBase 进程状态 HBase HBase master主从状态 HBase HBase regionserver rit数 HBase HBase master堆内存使用率 HBase HBase regionserver节点存活比例 HBase HBase regionserver堆内存使用率 HBase get操作平均耗时 HBase 99%的get操作耗时 HBase 请求平均处理耗时 HBase 每秒读请求数 HBase 每秒写请求数 Doris Doris进程状态 Doris 每分钟GC时间 Doris 平均每分钟查询错误数 Doris be存储资源使用率 Doris Doris 前端主机cpu平均使用率 Doris Doris 前端主机内存平均使用率 Doris Doris 后端主机cpu平均使用率 Doris Doris 后端主机内存平均使用率 Doris Doris 前端每秒查询数量 Doris Doris 前端每秒请求数量 Elasticsearch es进程状态 Elasticsearch es集群状态 Elasticsearch es 未分配shard数 Elasticsearch pending任务数量 Elasticsearch 文件系统剩余容量百分比 Elasticsearch JVM堆使用率 Elasticsearch rejected线程数 Trino Trino进程状态 Trino 健康节点比例 Trino JVM堆使用率 OpenLDAP openldap进程状态 OpenLDAP 389端口连接数 Flink Flink进程状态 Flume Flume进程状态 Spark Spark进程状态 Kerberos Kerberos进程状态 Ranger Ranger进程状态 Kyuubi Kyuubi进程状态 Knox Knox进程状态 Kibana Kibana进程状态 Logstash Logstash进程状态 JeekeFS JeekeFS进程状态 KafkaUI KafkaUI进程状态 Amoro Amoro 进程状态 Tezui TezUI 进程状态 Tezui TezUI 端口监听状态 Hue Hue 进程状态 Hue Hue 端口监听状态 Hue Hue Python第0代不可回收对象的5分钟增量 Hue Hue Python第1代不可回收对象的5分钟增量 Hue Hue Python第2代不可回收对象的5分钟增量 Hue Hue Django 500错误响应的5分钟增量 DolphinScheduler DolphinScheduler 进程状态 DolphinScheduler DolphinScheduler 系统当前的CPU使用率 DolphinScheduler DolphinScheduler 系统的平均负荷(1分钟) DolphinScheduler DolphinScheduler 各JVM进程CPU使用率 DolphinScheduler DolphinScheduler 各服务GC后长期存活堆内存的使用率 DolphinScheduler DolphinScheduler 各服务垃圾回收时间占比 DolphinScheduler DSApiServer 未捕获异常个数 DolphinScheduler DSAlertServer 等待发送的告警数量 DolphinScheduler DSApiServer 响应状态码的接口个数 DolphinScheduler DSMasterServer 1小时过载次数 DolphinScheduler DolphinScheduler 正在运行的工作流实例数量 DolphinScheduler DSWorkerServer 1小时过载次数 DolphinScheduler DSWorkerServer 上等待提交的任务总数 DolphinScheduler DSWorkerServer 上正在执行的任务总数 DolphinScheduler DSWorkerServer 1小时提交队列全满次数 DolphinScheduler DSAlertServer 5分钟未捕获异常个数