从翼MR V2.15.3版本起，用户可以通过云监控服务查看翼MR集群的主机与组件状态，并支持设置相关监控指标、系统事件的告警规则，配置短信与邮件告警。如需了解产品详细情况，可参考云监控服务。

操作步骤

登录天翼云官网，选择“云监控服务”。
点击进入云监控服务的管理控制台。
在左侧导航栏选择云服务监控中的“翼MapReduce监控”，即可查看该用户在当期资源池下的翼MR集群监控。
操作栏中的查看监控图表，可以查看集群相关监控指标，支持自定义查看的时间段。
点击操作栏内的创建告警规则，或点击左侧导航栏中告警服务中的“告警规则”，即可配置告警策略、通知与规则。
点击左侧导航栏事件监控中的系统事件，即可创建事件订阅并配置通知规则。

说明

呼和浩特3资源池，从 V2.22.1版本起，支持通过云监控服务查看MR集群状态。
仅支持有翼MR集群-节点查询权限的用户在云监控服务中查询目标集群的监控数据，管理员可通过翼MR的角色管理与用户权限功能为用户赋权。

监控指标列表

类别	指标名称
主机	cpu使用率
主机	系统15分钟负载
主机	内存空闲率
主机	磁盘存储空闲率
主机	磁盘inode空闲率
主机	磁盘IO使用率
主机	网卡每秒接收丢包数
主机	网卡每秒接收错误包
主机	网卡每秒发送丢包数
主机	网卡每秒发送错误包数
主机	节点指标采集器可用状态
主机	主机运行时间
主机	磁盘挂载状态
主机	磁盘是否只读异常
主机	网卡每秒接收的比特数
主机	网卡每秒发送的比特数
HDFS	HDFS进程状态
HDFS	HDFS NameNode主备状态
HDFS	HDFS rpc端口处理平均耗时
HDFS	HDFS rpc端口请求队列长度
HDFS	HDFS存储使用率
HDFS	PendingDeletionBlocks
HDFS	MissingBlocks
HDFS	HDFS每秒创建文件数
HDFS	hdfs锁队列等待线程数
HDFS	HDFS距离上次checkpoint时间
HDFS	HDFS NameNode内存使用率
HDFS	HDFS DataNode节点存活比例
HDFS	存储使用总量
HDFS	数据块总量
HDFS	HDFS存储空间使用百分比
HDFS	HDFS存在损坏的磁盘
HDFS	HDFS NameNode处于SafeMode
HDFS	HDFS NameNode Jvm暂停超过阈值的次数
HDFS	HDFS DataNode Jvm暂停超过阈值的次数
YARN	YARN进程状态
YARN	YARN ResourceManager主从状态
YARN	pending作业数
YARN	pending container数
YARN	心跳处理时延
YARN	每秒心跳次数
YARN	YARN NodeManager存活节点比例
YARN	YARN ResourceManager内存使用率
YARN	YARN ResourceManager主备状态
YARN	YARN ResourceManager Container 分配的平均时间
Hive	Hive进程状态
Hive	hiveserver2 10000端口连接数
Hive	hiveserver2 10000端口close wait数
Hive	hiveserver2 端口监听状态
Hive	hiveserver2堆内存使用率
Hive	hiveserver2 10000端口连接数
Hive	hiveserver2 10000端口close wait数
Hive	Hive metastore 端口监听状态
Hive	hiveserver2堆内存使用率
ZooKeeper	ZooKeeper进程状态
ZooKeeper	ZooKeeper watch数量
ZooKeeper	ZooKeeper活跃连接数
ZooKeeper	ZooKeeper数据节点存储总量
ZooKeeper	ZooKeeper leader重新选主
ZooKeeper	ZooKeeper的平均处理时间
Kafka	Kafka进程状态
Kafka	Kafka离线目录数量
Kafka	Kafka离线副本数
Kafka	Kafka低于 min.insync.replicas 的分区数量
Kafka	Kafka未保持同步的分区数量
Kafka	Kafka活跃controller数量
Kafka	Kafka ZooKeeper请求延迟
Kafka	Kafka broker访问zookeeper延迟时间
Kafka	Kafka Broker请求队列积压的请求数量
Kafka	Kafka 过去1分钟内触发的controller选举次数
HBase	HBase 进程状态
HBase	HBase master主从状态
HBase	HBase regionserver rit数
HBase	HBase master堆内存使用率
HBase	HBase regionserver节点存活比例
HBase	HBase regionserver堆内存使用率
HBase	get操作平均耗时
HBase	99%的get操作耗时
HBase	请求平均处理耗时
HBase	每秒读请求数
HBase	每秒写请求数
HBase	HBase正在使用的handler数量
HBase	HBase等待执行的rpc队列长度
Doris	Doris进程状态
Doris	每分钟GC时间
Doris	平均每分钟查询错误数
Doris	be存储资源使用率
Doris	Doris 前端主机cpu平均使用率
Doris	Doris 前端主机内存平均使用率
Doris	Doris 后端主机cpu平均使用率
Doris	Doris 后端主机内存平均使用率
Doris	Doris 前端每秒查询数量
Doris	Doris 前端每秒请求数量
Doris	Doris INSERT 加载中作业峰值
Doris	Doris load任务失败率
Doris	Doris集群最大compaction score
Doris	Doris集群FE的Minor GC持续时长
Doris	Doris集群FE的Old GC持续时长
Doris	Doris集群BE CPU使用率
Doris	Doris DB当前事务数
Elasticsearch	ES进程状态
Elasticsearch	ES集群状态
Elasticsearch	ES 未分配shard数
Elasticsearch	pending任务数量
Elasticsearch	文件系统剩余容量百分比
Elasticsearch	JVM堆使用率
Elasticsearch	rejected线程数
Trino	Trino进程状态
Trino	健康节点比例
Trino	JVM堆使用率
OpenLDAP	openldap进程状态
OpenLDAP	389端口连接数
Flink	Flink进程状态
Flume	Flume进程状态
Spark	Spark进程状态
Kerberos	Kerberos进程状态
Ranger	Ranger进程状态
Ranger	Ranger JVM堆使用率
Kyuubi	Kyuubi进程状态
Kyuubi	Kyuubi JVM Deadlock线程数
Kyuubi	Kyuubi 服务堆内存使用率
Kyuubi	Kyuubi 服务存活率
Knox	Knox进程状态
Kibana	Kibana进程状态
Logstash	Logstash进程状态
JeekeFS	JeekeFS进程状态
KafkaUI	KafkaUI进程状态
Amoro	Amoro 进程状态
Tezui	TezUI 进程状态
Tezui	TezUI 端口监听状态
Hue	Hue 进程状态
Hue	Hue 端口监听状态
Hue	Hue Python第0代不可回收对象的5分钟增量
Hue	Hue Python第1代不可回收对象的5分钟增量
Hue	Hue Python第2代不可回收对象的5分钟增量
Hue	Hue Django 500错误响应的5分钟增量
DolphinScheduler	DolphinScheduler 进程状态
DolphinScheduler	DolphinScheduler 系统当前的CPU使用率
DolphinScheduler	DolphinScheduler 系统的平均负荷（1分钟）
DolphinScheduler	DolphinScheduler 各JVM进程CPU使用率
DolphinScheduler	DolphinScheduler 各服务GC后长期存活堆内存的使用率
DolphinScheduler	DolphinScheduler 各服务垃圾回收时间占比
DolphinScheduler	DSApiServer 未捕获异常个数
DolphinScheduler	DSAlertServer 等待发送的告警数量
DolphinScheduler	DSApiServer 响应状态码的接口个数
DolphinScheduler	DSMasterServer 1小时过载次数
DolphinScheduler	DolphinScheduler 正在运行的工作流实例数量
DolphinScheduler	DSWorkerServer 1小时过载次数
DolphinScheduler	DSWorkerServer 上等待提交的任务总数
DolphinScheduler	DSWorkerServer 上正在执行的任务总数
DolphinScheduler	DSWorkerServer 1小时提交队列全满次数
DolphinScheduler	DSAlertServer 5分钟未捕获异常个数
Ray	Ray 进程状态
Ray	Ray 活跃节点数
StreamPark2	StreamPark2 进程状态
StreamPark2	StreamPark2 服务GC后长期存活堆内存的使用率
StreamPark2	StreamPark2 服务垃圾回收时间占比
Gravitino	Gravitino 进程状态
Gravitino	Gravitino 5分钟内服务内部错误总数
Gravitino	Gravitino P99 延迟

事件列表

类别	事件名称
集群变更	节点组扩缩容成功
	节点组扩缩容失败
	节点组扩缩容部分成功
	节点升配成功
	节点升配失败
	磁盘扩容成功
	磁盘扩容失败
	计费模式变更
运维操作	重启服务成功
	重启服务失败
	启动服务成功
	启动服务失败
	停止服务成功
	停止服务失败
	置维护成功
	置维护失败
	取消维护成功
	取消维护失败
	重启实例成功
	重启实例失败
	启动实例成功
	启动实例失败
	停止实例成功
	停止实例失败
	滚动重启服务成功
	滚动重启服务失败
	滚动重启实例成功
	滚动重启实例失败
	滚动停止实例成功
	滚动停止实例失败
服务监控	OpenLDAP健康状态异常
	Kerberos健康状态异常
	ZooKeeper健康状态异常
	HDFS健康状态异常
	YARN健康状态异常
	Hive健康状态异常
	Spark健康状态异常
	HBase健康状态异常
	Trino健康状态异常
	Kyuubi健康状态异常
	Doris健康状态异常
	Ranger健康状态异常
	Kafka健康状态异常
	Knox健康状态异常
	Flink健康状态异常
	Flume健康状态异常
	Pushgateway健康状态异常
	Amoro健康状态异常
	Hue健康状态异常
	DolphinScheduler健康状态异常
	Hive数据仓被删除
	HBase_HMaster主备切换
	YARN_ResourceManager主备切换
	HDFS_NameNode主备切换
	ZooKeeper_Leader切换
	元数据库连接异常
系统操作	主机重启

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

操作步骤

监控指标列表

事件列表

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

翼MapReduce

翼MapReduce

操作步骤

监控指标列表

事件列表