容器可观测
更新时间 2026-04-01 18:29:16
最近更新时间: 2026-04-01 18:29:16
本文主要介绍在云容器引擎CCE集群中,如何接入Prometheus监控以及如何在集群中查看监控大盘与设置告警规则。
前提条件
已开通应用性能监控APM。
已创建云容器引擎集群。
操作指南
步骤一:接入云容器引擎集群
Prometheus监控服务和云容器引擎服务已实现产品能力集成,您可以通过以下方式将Prometheus服务接入容器集群中。
方式1:通过云容器引擎控制台接入
新建集群接入。在创建云容器引擎时,默认会集成Prometheus服务能力,以便给用户提供容器监控能力。
已有集群接入。登录云容器引擎控制台,进入集群列表页面,点击目标集群名称,在左侧导航栏中选择运维管理 > 监控。再根据页面指引按步骤完成服务开通与插件安装即可。
方式2:通过Prometheus监控控制台接入
您可以通过Prometheus监控服务控制台接入云容器集群,具体操作如下:
登录Prometheus监控服务控制台,左侧点击接入管理。
在快速接入中,选择“容器集群监控(专有版)”或“容器集群监控(托管版)”。
在配置面板,选择需要接入的集群名称,按照界面指引完成容器集群监控接入。
步骤二:查看监控大盘
方式1:在云容器引擎控制台查看
登录云容器引擎控制台,进入集群列表页面,点击目标集群名称,在左侧导航栏中选择运维管理 > 监控,在监控页面中单击需要查看的监控大盘,即可查看相应的监控数据。
方式2:在Prometheus服务控制台查看
登录Prometheus监控服务控制台,左侧点击接入管理。
在接入管理页面,点击大盘查询页签。
在容器环境中选择待查看的集群,即可查看对应的监控大盘。
步骤三:设置告警
登录Prometheus监控服务控制台,左侧点击告警规则。
顶部选择对应的Prometheus实例,即可查看Prometheus内置的告警通知,您可对告警规则进行编辑、启停等操作。
容器基础监控指标
以下为部分容器集群基础指标,指标基础免费存储15天,存储时长超过15天的实例,将按照超出的天数,收取免费指标的存储费用。
| 指标 | 指标描述 | 分组 | 单位 |
|---|---|---|---|
| container_memory_failures_total | 容器内存失败数 | cadvisor | - |
| container_memory_rss | 容器内存rss | cadvisor | bytes |
| container_spec_memory_limit_bytes | 容器内存limit | cadvisor | bytes |
| container_memory_failcnt | 容器内存failcnt | cadvisor | - |
| container_memory_cache | 容器内存cache | cadvisor | - |
| container_memory_swap | 容器内存swap | cadvisor | - |
| container_memory_usage_bytes | 容器内存使用量 | cadvisor | bytes |
| container_memory_max_usage_bytes | 容器内存最大用量 | cadvisor | bytes |
| container_cpu_load_average_10s | 容器cpu平均负载 | cadvisor | - |
| container_fs_reads_total | 容器文件系统读总数 | cadvisor | - |
| container_fs_writes_total | 容器文件系统吸入总数 | cadvisor | - |
| container_network_transmit_packets_total | 容器网络发包数 | cadvisor | - |
| container_network_transmit_errors_total | 容器网络发送错误数 | cadvisor | - |
| container_network_receive_errors_total | 容器网络接收错误数 | cadvisor | - |
| container_network_transmit_bytes_total | 容器网络传输的字节数 | cadvisor | bytes |
| container_network_receive_bytes_total | 容器网络接收的字节数 | cadvisor | bytes |
| container_memory_working_set_bytes | 容器内存用量 | cadvisor | bytes |
| container_cpu_usage_seconds_total | 容器cpu用量 | cadvisor | - |
| container_fs_reads_bytes_total | 容器文件系统读总字节 | cadvisor | bytes |
| container_fs_writes_bytes_total | 容器文件系统写总字节 | cadvisor | bytes |
| container_spec_cpu_quota | 容器cpu配额 | cadvisor | - |
| container_cpu_cfs_periods_total | 容器中 CPU CFS (Completely Fair Scheduler) 周期的总数 | cadvisor | - |
| container_cpu_cfs_throttled_periods_total | 容器中 CPU CFS 被限制的周期总数 | cadvisor | - |
| container_cpu_cfs_throttled_seconds_total | 容器中 CPU CFS 被限制的总时间 | cadvisor | - |
| container_fs_inodes_free | 容器inode free | cadvisor | - |
| container_fs_io_time_seconds_total | 容器io占cpu时间 | cadvisor | - |
| container_fs_io_time_weighted_seconds_total | 容器文件系统 I/O 的加权时间总数 | cadvisor | - |
| container_fs_limit_bytes | 容器文件系统limit | cadvisor | bytes |
| container_tasks_state | 容器中任务的状态 | cadvisor | - |
| container_fs_read_seconds_total | 容器文件系统读时间 | cadvisor | - |
| container_fs_write_seconds_total | 容器文件系统写时间 | cadvisor | - |
| container_fs_usage_bytes | 容器文件系统的使用字节数 | cadvisor | bytes |
| container_fs_inodes_total | 容器文件系统的 inode 总数 | cadvisor | - |
| container_fs_io_current | 容器文件系统当前的 I/O 活动 | cadvisor | - |
| machine_cpu_cores | 机器CPU核心数 | cadvisor | - |
| machine_memory_bytes | 机器内存字节数 | cadvisor | bytes |
| go_gc_duration_seconds | Go GC耗时(秒) | prometheus-node-exporter | - |
| go_goroutines | Go运行协程数 | prometheus-node-exporter | - |
| node_boot_time_seconds | 节点启动时间(秒) | prometheus-node-exporter | - |
| node_context_switches_total | 节点上下文切换总数 | prometheus-node-exporter | - |
| kube_node_labels | 节点标签 | kube-state-metrics | - |
| node_cpu_seconds_total | 节点CPU使用时间总计 | prometheus-node-exporter | - |
| node_disk_io_now | 节点磁盘I/O当前量 | prometheus-node-exporter | - |
| node_disk_io_time_seconds_total | 节点磁盘I/O时间总计(秒) | prometheus-node-exporter | - |
| node_disk_io_time_weighted_seconds_total | 节点磁盘I/O加权时间总计(秒) | prometheus-node-exporter | - |
| node_disk_read_bytes_total | 节点磁盘读取字节总计 | prometheus-node-exporter | bytes |
| node_disk_read_time_seconds_total | 节点磁盘读取时间总计(秒) | prometheus-node-exporter | - |
| node_disk_reads_completed_total | 节点磁盘读取完成总数 | prometheus-node-exporter | - |
| node_disk_write_time_seconds_total | 节点磁盘写入时间总秒数 | prometheus-node-exporter | - |
| node_disk_writes_completed_total | 节点磁盘写入完成总数 | prometheus-node-exporter | - |
| node_disk_written_bytes_total | 节点磁盘写入字节总数 | prometheus-node-exporter | bytes |
| node_exporter_build_info | 节点导出器构建信息 | prometheus-node-exporter | - |
| node_filefd_allocated | 节点文件描述符已分配 | prometheus-node-exporter | - |
| node_filesystem_avail_bytes | 节点文件系统可用字节数 | prometheus-node-exporter | bytes |
| node_filesystem_files | 节点文件系统文件数 | prometheus-node-exporter | - |
| node_filesystem_files_free | 节点文件系统空闲文件数 | prometheus-node-exporter | - |
| node_filesystem_free_bytes | 节点文件系统空闲字节数 | prometheus-node-exporter | bytes |
| node_filesystem_readonly | 节点文件系统只读状态 | prometheus-node-exporter | - |
| node_filesystem_size_bytes | 节点文件系统总大小字节数 | prometheus-node-exporter | bytes |
| node_intr_total | 节点中断总数 | prometheus-node-exporter | - |
| node_load1 | 节点1分钟负载 | prometheus-node-exporter | - |
| node_load15 | 节点15分钟负载 | prometheus-node-exporter | - |
| node_load5 | 节点5分钟负载 | prometheus-node-exporter | - |
| node_memory_Buffers_bytes | 节点buffers内存大小(字节) | prometheus-node-exporter | bytes |
| node_memory_Cached_bytes | 节点cached内存大小(字节) | prometheus-node-exporter | bytes |
| node_memory_MemAvailable_bytes | 节点可用内存大小(字节) | prometheus-node-exporter | bytes |
| node_memory_MemFree_bytes | 节点空闲内存大小(字节) | prometheus-node-exporter | bytes |
| node_memory_MemTotal_bytes | 节点总内存大小(字节) | prometheus-node-exporter | bytes |
| node_netstat_Tcp_ActiveOpens | TCP主动打开连接数 | prometheus-node-exporter | - |
| node_netstat_Tcp_CurrEstab | 当前建立的TCP连接数 | prometheus-node-exporter | - |
| node_netstat_Tcp_PassiveOpens | TCP被动打开连接数 | prometheus-node-exporter | - |
| node_network_receive_bytes_total | 累计接收字节总数 | prometheus-node-exporter | bytes |
| node_network_receive_drop_total | 接收丢包总数 | prometheus-node-exporter | - |
| node_network_receive_errs_total | 接收错误总数 | prometheus-node-exporter | - |
| node_network_receive_packets_total | 接收数据包总数 | prometheus-node-exporter | - |
| node_network_transmit_bytes_total | 累计发送字节总数 | prometheus-node-exporter | bytes |
| node_network_transmit_drop_total | 发送丢包总数 | prometheus-node-exporter | - |
| node_network_transmit_errs_total | 发送错误总数 | prometheus-node-exporter | - |
| node_network_transmit_packets_total | 发送数据包总数 | prometheus-node-exporter | - |
| node_network_up | 网络接口是否启用 | prometheus-node-exporter | - |
| node_nf_conntrack_entries | 链接状态跟踪表条目数量 | prometheus-node-exporter | - |
| node_nf_conntrack_entries_limit | 链接状态跟踪表条目限制 | prometheus-node-exporter | - |
| kube_node_role | k8s节点角色 | kube-state-metrics | - |
| node_processes_max_processes | 最大进程数 | prometheus-node-exporter | - |
| node_processes_pids | 进程ID数 | prometheus-node-exporter | - |
| kube_node_info | 节点信息 | kube-state-metrics | - |
| node_sockstat_TCP_alloc | TCP套接字分配数 | prometheus-node-exporter | - |
| node_sockstat_TCP_inuse | TCP套接字使用中 | prometheus-node-exporter | - |
| node_sockstat_TCP_tw | TCP TIME_WAIT套接字数 | prometheus-node-exporter | - |
| node_timex_offset_seconds | 时间偏移(秒) | prometheus-node-exporter | - |
| node_timex_sync_status | 时钟同步状态 | prometheus-node-exporter | - |
| node_uname_info | 系统信息(uname) | prometheus-node-exporter | - |
| node_vmstat_pgfault | VM统计-页故障次数 | prometheus-node-exporter | - |
| node_vmstat_pgmajfault | VM统计-重大页故障次数 | prometheus-node-exporter | - |
| node_vmstat_pgpgin | VM统计-页入次数 | prometheus-node-exporter | - |
| node_vmstat_pgpgout | VM统计-页出次数 | prometheus-node-exporter | - |
| process_cpu_seconds_total | 进程CPU使用秒数总计 | prometheus-node-exporter | - |
| process_resident_memory_bytes | 进程常驻内存字节数 | prometheus-node-exporter | bytes |
| scrape_duration_seconds | 抓取持续时间(秒) | prometheus-node-exporter | - |
| kube_cronjob_created | Kubernetes CronJob创建时间 | kube-state-metrics | |
| kube_daemonset_created | Kubernetes DaemonSet创建时间 | kube-state-metrics | - |
| kube_daemonset_status_current_number_scheduled | Kubernetes DaemonSet当前计划的节点数量 | kube-state-metrics | - |
| kube_daemonset_status_desired_number_scheduled | Kubernetes DaemonSet期望计划的节点数量 | kube-state-metrics | - |
| kube_daemonset_status_number_available | Kubernetes DaemonSet可用节点数量 | kube-state-metrics | - |
| kube_daemonset_status_number_misscheduled | Kubernetes DaemonSet错过的调度节点数量 | kube-state-metrics | - |
| kube_daemonset_status_number_ready | Kubernetes DaemonSet就绪节点数量 | kube-state-metrics | - |
| kube_daemonset_updated_number_scheduled | Kubernetes DaemonSet已更新的计划节点数量 | kube-state-metrics | - |
| kube_deployment_created | Kubernetes Deployment创建时间 | kube-state-metrics | - |
| kube_deployment_labels | Kubernetes Deployment标签 | kube-state-metrics | - |
| kube_deployment_metadata_generation | Kubernetes Deployment元数据生成代数 | kube-state-metrics | - |
| kube_deployment_spec_replicas | Kubernetes Deployment规格副本数 | kube-state-metrics | - |
| kube_deployment_spec_strategy_rollingupdate_max_unavailable | Kubernetes Deployment滚动更新最大不可用数 | kube-state-metrics | - |
| kube_deployment_status_observed_generation | Kubernetes Deployment观察到的生成代数 | kube-state-metrics | - |
| kube_deployment_status_replicas | Kubernetes Deployment副本总数 | kube-state-metrics | - |
| kube_deployment_status_replicas_available | Kubernetes Deployment可用副本数 | kube-state-metrics | - |
| kube_deployment_status_replicas_unavailable | Kubernetes Deployment不可用副本数 | kube-state-metrics | - |
| kube_deployment_status_replicas_updated | Kubernetes Deployment已更新副本数 | kube-state-metrics | - |
| kube_ingress_info | Ingress信息 | kube-state-metrics | - |
| kube_job_created | job创建时间 | kube-state-metrics | - |
| kube_namespace_labels | 命名空间标签 | kube-state-metrics | - |
| kube_namespace_status_phase | 命名空间状态阶段 | kube-state-metrics | - |
| kube_node_spec_taint | 节点污点配置 | kube-state-metrics | - |
| kube_node_spec_unschedulable | 节点是否可调度标志 | kube-state-metrics | - |
| kube_node_status_allocatable_cpu_cores | 节点可分配CPU核心数 | kube-state-metrics | - |
| kube_node_status_allocatable_memory_bytes | 节点可分配内存字节数 | kube-state-metrics | bytes |
| kube_node_status_allocatable_pods | 节点可分配Pod数量 | kube-state-metrics | - |
| kube_node_status_capacity | 节点容量 | kube-state-metrics | - |
| kube_node_status_capacity_cpu_cores | 节点容量CPU核心数 | kube-state-metrics | - |
| kube_node_status_capacity_memory_bytes | 节点容量内存字节数 | kube-state-metrics | bytes |
| kube_node_status_capacity_pods | 节点容量Pod数量 | kube-state-metrics | - |
| kube_node_status_condition | 节点状态条件 | kube-state-metrics | - |
| kube_persistentvolume_status_phase | 持久卷状态阶段 | kube-state-metrics | - |
| kube_persistentvolumeclaim_status_phase | 持久卷声明状态阶段 | kube-state-metrics | - |
| kube_pod_container_info | Pod容器信息 | kube-state-metrics | - |
| kube_pod_container_resource_limits | Pod容器资源限制 | kube-state-metrics | - |
| kube_pod_container_resource_limits_cpu_cores | Pod容器资源限制CPU核心数 | kube-state-metrics | - |
| kube_pod_container_resource_limits_memory_bytes | Pod容器资源限制内存字节数 | kube-state-metrics | bytes |
| kube_pod_container_resource_requests_cpu_cores | Pod容器资源请求CPU核心数 | kube-state-metrics | - |
| kube_pod_container_resource_requests_memory_bytes | Pod容器资源请求内存字节数 | kube-state-metrics | bytes |
| kube_pod_container_status_last_terminated_reason | Pod容器最后终止原因 | kube-state-metrics | - |
| kube_pod_container_status_restarts_total | Pod容器重启总数 | kube-state-metrics | - |
| kube_pod_container_status_running | Pod容器运行状态 | kube-state-metrics | - |
| kube_pod_container_status_terminated | Pod容器终止状态 | kube-state-metrics | - |
| kube_pod_container_status_terminated_reason | Pod容器终止原因 | kube-state-metrics | - |
| kube_pod_container_status_waiting | Pod容器等待状态 | kube-state-metrics | - |
| kube_pod_container_status_waiting_reason | Pod容器等待原因 | kube-state-metrics | - |
| kube_pod_info | Pod信息 | kube-state-metrics | - |
| kube_pod_labels | Pod标签 | kube-state-metrics | - |
| kube_pod_owner | Pod所属对象 | kube-state-metrics | - |
| kube_pod_status_phase | Pod状态阶段 | kube-state-metrics | - |
| kube_pod_status_ready | Pod就绪状态 | kube-state-metrics | - |
| kube_resourcequota | 资源配额 | kube-state-metrics | - |
| kube_secret_info | secret信息 | kube-state-metrics | - |
| kube_service_info | 服务信息 | kube-state-metrics | - |
| kube_statefulset_created | 有状态副本集创建时间 | kube-state-metrics | - |
| kube_statefulset_replicas | 有状态副本集副本数 | kube-state-metrics | - |
| kube_statefulset_status_replicas | 有状态副本集状态副本数 | kube-state-metrics | - |
| rest_client_requests_total | REST客户端请求总数 | kube-state-metrics | - |
| apiserver_admission_controller_admission_duration_seconds_bucket | APIServer准入控制器准入耗时秒数桶 | kube-apiserver | - |
| apiserver_admission_webhook_admission_duration_seconds_bucket | APIServer准入Webhook准入耗时秒数桶 | kube-apiserver | - |
| apiserver_admission_webhook_admission_duration_seconds_count | APIServer准入Webhook准入耗时秒数计数 | kube-apiserver | - |
| apiserver_current_inflight_requests | APIServer当前正在处理的请求数量 | kube-apiserver | - |
| apiserver_request_duration_seconds_bucket | APIServer请求处理时间(以秒为单位)的桶 | kube-apiserver | - |
| apiserver_request_duration_seconds_count | APIServer请求持续时间秒数计数 | kube-apiserver | - |
| apiserver_request_duration_seconds_sum | APIServer请求持续时间秒数总和 | kube-apiserver | - |
| apiserver_request_total | API总请求数 | kube-apiserver | - |
| rest_client_request_duration_seconds_bucket | REST客户端:请求耗时秒数分桶 | kube-apiserver | - |
| etcd_debugging_mvcc_db_total_size_in_bytes | ETCD调试MVCC数据库总大小(字节) | etcd | bytes |
| etcd_debugging_mvcc_keys_total | ETCD调试MVCC键总数 | etcd | - |
| etcd_disk_backend_commit_duration_seconds_bucket | ETCD磁盘后端提交持续时间秒桶 | etcd | - |
| etcd_server_has_leader | ETCD服务器有Leader | etcd | - |
| etcd_server_leader_changes_seen_total | ETCD服务器见证Leader变更总数 | etcd | - |
| scheduler_pending_pods | 调度器待处理Pod数 | kube-scheduler | - |
| scheduler_pod_scheduling_attempts_bucket | 调度器Pod调度尝试次数桶 | kube-scheduler | - |
| scheduler_scheduler_cache_size | 调度器缓存大小 | kube-scheduler | - |