监控
更新时间 2026-06-01 11:06:23
最近更新时间: 2026-06-01 11:06:23
本页面介绍云数据库ClickHouse通过控制台提供的查看实例监控信息功能。
我们提供全面的监控功能,用于实时监测和评估您的云数据库ClickHouse集群的性能和运行状况:
- 登录云数据库ClickHouse控制台,并选择实例所在区域。
- 在实例列表页面,点击目标实例ID所在行的"管理"按钮进入详细信息页面。
- 在实例详细信息页面上方导航栏中,选择"监控管理"选项。
以下是我们核心监控指标的详细描述:
| 监控指标 | 描述 |
|---|---|
| CPU使用率 | 监测每个ClickHouse节点的CPU利用率,反映节点的计算能力和负载情况。您可以通过监控CPU使用率来评估系统的处理能力,并及时进行资源调整。 |
| 内存使用量 | 跟踪每个ClickHouse节点的内存消耗情况,了解内存使用情况可以帮助您优化查询性能和调整内存配置。 |
| 磁盘使用空间 | 监控每个ClickHouse节点的磁盘空间占用情况,确保有足够的存储空间来容纳数据和执行操作。及时了解磁盘使用情况可以避免因存储空间不足而导致的数据丢失或运行故障。 |
| 每秒IO次数 | 记录每秒的输入输出操作次数,包括读取和写入数据的次数。通过监控每秒IO次数,您可以评估ClickHouse节点的IO性能和磁盘负载情况,以便进行性能优化和容量规划。 |
| 每秒读写字节数 | 监测每秒读取和写入的数据量,帮助您了解数据处理速度和吞吐量。通过监控每秒读写字节数,您可以评估系统的数据处理能力,并根据需要进行调整和优化。 |
| 当前运行查询数 | 实时跟踪正在运行的查询数量,反映系统的查询负载和性能状况。通过监控当前运行查询数,您可以了解系统的负载情况,并做出相应的优化和调整。 |
| 合并数量 | 监控数据合并操作的数量,用于评估数据压缩和合并操作的效率。通过监控合并数量,您可以了解数据压缩和合并的效果,并根据需要进行优化。 |
| 分区变更数量 | 记录分区变更的次数,用于跟踪分区操作和数据变更情况。了解分区变更数量可以帮助您追踪数据变更的频率和趋势,以及相应的系统影响。 |
| 后台任务数 | 跟踪后台任务的数量,包括数据清理、数据复制等后台处理任务。通过监控后台任务数,您可以了解后台处理的工作负载和执行情况,以及相应的资源占用。 |
| TCP连接数 | 监控每个ClickHouse节点的TCP连接数量,用于评估网络连接的负载和性能状况。了解TCP连接数可以帮助您优化网络配置和资源分配。 |
| HTTP连接数 | 记录每个ClickHouse节点的HTTP连接数量,帮助您追踪HTTP请求的并发情况。通过监控HTTP连接数,您可以评估系统的网络负载和处理能力。 |
| Zookeeper监听数 | 监测Zookeeper集群中的监听数,用于了解集群状态和数据同步情况。通过监控Zookeeper监听数,您可以评估集群的稳定性和可用性。 |
| Zookeeper会话数 | 跟踪Zookeeper集群中的会话数,用于评估集群的稳定性和连接状态。了解Zookeeper会话数可以帮助您监控集群的健康状况和系统连接情况。 |
通过这些详细的监控指标,您可以全面了解和掌握云数据库ClickHouse集群的性能表现、资源利用和系统状态,以便及时调整和优化系统配置,确保系统的高可用性、高性能和稳定性。
告警设置
设置告警规则
| 参数名 | 参数解释 |
|---|---|
| 策略名称 | 告警策略的名称,一个告警策略可以包含多个告警规则。 |
| 资源池 | 告警策略对应的资源池。 |
| 备注 | 告警策略的备注信息。 |
| 告警对象 | 可选择天翼云数据库组件,并选择对应的告警实例。 |
| 模板类型 | 支持手动创建告警规则,用户也可使用默认模板的六个默认告警规则。 |
| 阈值告警 | 支持2.1节中列举的除集群状态以外的所有监控指标。 |
| 事件告警 | 仅支持集群状态的事件告警。 |
| 沉默周期 | 指告警发生后如果未恢复正常,间隔多久重复发送一次告警通知。 |
| 告警级别 | 支持选择紧急、告警、普通三种告警级别。 |
| 告警方式 | 支持选择邮箱、短信,支持同时选择多种告警方式进行告警。填写后将额外推送告警消息至指定的告警方式。 |
| 告警联系人 | 目前只能选择当前账号,不可选择其他用户。选择后会将告警信息推送至用户绑定的邮箱和短信。 |
| 告警联系组 | 目前普通用户不可创建告警联系群组,默认为空。后续迭代处理后将上线联系组功能。 |
附(完整监控指标清单):
1)集群指标
| 指标名称 | 指标含义 | 指标英文名 | 取值范围 |
|---|---|---|---|
| ck节点个数 | 集群中CK节点的个数 | instance_ck_numbers | >0 |
| cpu使用率 | 所有节点的cpu使用率取均值(%) | instance_cpu_usage | 0-100 |
| 内存利用率 | 所有节点的内存使用率取均值(%) | instance_mem_usage | 0-100 |
| 磁盘使用率 | 所有节点的数据盘使用率取均值(%) | instance_disk_usage | 0-100 |
| 接收流量 | 所有节点的接收流量取均值(Bytes) | instance_node_network_receive_bytes_total | ≥ 0 |
| 发送流量 | 所有节点的发送流量取均值(Bytes) | instance_node_network_transmit_bytes_total | ≥ 0 |
| 查询数 | 所有节点的查询数求和(个/s) | instance_ClickHouseProfileEvents_Query | ≥ 0 |
| 插入数 | 所有节点的插入书求和(个/s) | instance_ClickHouseProfileEvents_InsertQuery | ≥ 0 |
| 插入失败数 | 所有节点的插入失败数求和(个/s) | instance_ClickHouseProfileEvents_FailedInsertQuery | ≥ 0 |
| 查询失败数 | 所有节点的查询失败数求和(个/s) | instance_ClickHouseProfileEvents_FailedSelectQuery | ≥ 0 |
2)业务指标
| 指标名称 | 指标含义 | 指标英文名 | 取值范围 |
|---|---|---|---|
| ck进程存活 | ck进程存活 | ck_up | ≥ 0 |
| http连接数 | http连接数(个) | ck_http_connection | ≥ 0 |
| mysql方式的连接数 | mysql方式的连接数(个) | ck_mysql_connection | ≥ 0 |
| tcp连接数 | tcp连接数(个) | ck_tcp_connection | ≥ 0 |
| jdbc连接数 | jdbc连接数(个) | ck_jdbc_connection | ≥ 0 |
| merge所消耗的时间 | merge所消耗的时间(速率)(ms) | ck_mergestimemilliseconds | ≥ 0 |
| 单位时间的insert执行次数 | 单位时间的insert执行次数(个/s) | ck_insert_query | ≥ 0 |
| 包含增删改查的query个数 | 包含增删改查的query个数(个/s) | ck_query | ≥ 0 |
| 查询线程数 | 查询线程数(个) | ck_query_thread | ≥ 0 |
| 单位时间内的副本块merge个数 | 单位时间内的副本块merge个数(个/s) | ck_replicated_part_merges | ≥ 0 |
| 单位时间内的副本块mutation个数 | 单位时间内的副本块mutation个数(个/s) | ck_replicated_part_mutations | ≥ 0 |
| 插入失败数 | 插入失败数(个/s) | ck_failed_insert_query | ≥ 0 |
| 查询失败数 | 查询失败数(个/s) | ck_failed_select_query | ≥ 0 |
| merge数 | merge数(个) | ck_merge | ≥ 0 |
| 上下文锁等待 | 上下文锁等待(个) | ClickHouseMetrics_ContextLockWait | ≥ 0 |
| 启动时间 | 启动时间 | ck_uptime | ≥ 0 |
| mutation数量 | mutation数量(个) | ck_part_mutation | ≥ 0 |
| readonlyReplica数量 | readonlyReplica数量(个) | ck_readonly_replica | ≥ 0 |
3)节点指标
| 指标名称 | 指标含义 | 指标英文名 | 取值范围 |
|---|---|---|---|
| cpu使用率 | cpu使用率(%) | ck_cpu_usage | 0-100 |
| 节点一分钟负载 | 节点一分钟负载(%) | ck_node_load1 | 0-100 |
| 内存使用率 | 内存使用率(%) | ck_mem_usage | 0-100 |
| 文件打开数 | 文件打开数(个) | ck_file_open | ≥ 0 |
| 数据盘使用率 | 数据盘使用率(%) | ck_disk_usage | 0-100 |
| 5分钟负载 | 5分钟负载(%) | ck_node_load5 | 0-100 |
| 15分钟负载 | 15分钟负载(%) | ck_node_load15 | 0-100 |
| 节点接收流量 | 节点接收流量(MBytes/s) | ck_node_network_receive_bytes_total | ≥ 0 |
| 节点流出流量 | 节点流出流量(MBytes/s) | ck_node_network_transmit_bytes_total | ≥ 0 |
| CPU负载比率 | CPU负载比率(%) | ck_cpu_load_rate | 0-100 |
| 节点磁盘IO使用率 | 节点磁盘IO使用率(%) | ck_node_disk_io_util | 0-100 |
| 节点硬盘IO等待时间 | 节点硬盘IO等待时间(ms) | ck_node_disk_io_wait | ≥ 0 |
| 节点硬盘读IOPS | 节点硬盘读IOPS(个/s) | ck_node_disk_read_iops | ≥ 0 |
| 节点硬盘读流量 | 节点硬盘读流量(MBytes/s) | ck_node_disk_read_throughout | ≥ 0 |
| 节点硬盘写IOPS | 节点硬盘写IOPS(个/s) | ck_node_disk_write_iops | ≥ 0 |
| 节点硬盘写流量 | 节点硬盘写流量(MBytes/s) | ck_node_disk_write_throughout | ≥ 0 |
4)ZK指标(CK侧)
| 指标名称 | 指标含义 | 指标英文名 | 取值范围 |
|---|---|---|---|
| zk请求数 | zk请求数(个) | ck_zookeeper_request | ≥ 0 |
| 当前zk session个数 | 当前zk session个数(个) | ck_zookeeper_session | ≥ 0 |
| zkwatch个数 | zkwatch个数(个) | ck_zookeeper_watch | ≥ 0 |
5)ZK指标(ZK_METRICS)
| 指标名称 | 指标含义 | 指标英文名 | 取值范围 |
|---|---|---|---|
| zk进程存活 | zk进程存活 | zk_up | ≥ 0 |
| 发包个数 | 发包个数(个) | zk_packets_sent | ≥ 0 |
| 收包个数 | 收包个数(个) | zk_packets_received | ≥ 0 |
| 预处理队列等待时间 | 预处理队列等待时间(ms) | zk_prep_processor_queue_time_ms | ≥ 0 |
| 预处理时间 | 预处理时间(ms) | zk_prep_process_time | ≥ 0 |
| 全局session个数 | 全局session个数(个) | zk_global_sessions | ≥ 0 |
| zk_watch个数 | zk_watch个数(个) | zk_watch_count | ≥ 0 |
| jvm内存池使用 | jvm内存池使用(MBytes) | zk_jvm_memory_pool_bytes_used | ≥ 0 |
| 拒绝链接个数 | 拒绝链接个数(个) | zk_connection_rejected | ≥ 0 |
| 请求提交队列个数 | 请求提交队列个数(个) | zk_request_commit_queued | ≥ 0 |
| zookeeper事务版本 | zookeeper事务版本 | zxid | ≥ 0 |
| zookeeper节点leader | zookeeper节点leader | zk_is_leader | ≥ 0 |
6)ZK节点指标
| 指标名称 | 指标含义 | 指标英文名 | 取值范围 |
|---|---|---|---|
| cpu使用率 | cpu使用率(%) | zk_cpu_usage | 0-100 |
| 节点一分钟负载 | 节点一分钟负载(%) | zk_node_load1 | 0-100 |
| 内存使用率 | 内存使用率(%) | zk_mem_usage | 0-100 |
| 数据盘使用率 | 数据盘使用率(%) | zk_disk_usage | 0-100 |
| 5分钟负载 | 5分钟负载(%) | zk_node_load5 | 0-100 |
| 15分钟负载 | 15分钟负载(%) | zk_node_load15 | 0-100 |
| 节点接收流量 | 节点接收流量(MBytes/s) | zk_node_network_receive_bytes_total | ≥ 0 |
| 节点流出流量 | 节点流出流量(MBytes/s) | zk_node_network_transmit_bytes_total | ≥ 0 |
| 节点磁盘IO使用率 | 节点磁盘IO使用率(%) | zk_node_disk_io_util | 0-100 |
| 节点硬盘IO等待时间 | 节点硬盘IO等待时间(ms) | zk_node_disk_io_wait | ≥ 0 |
| 节点硬盘读IOPS | 节点硬盘读IOPS(个/s) | zk_node_disk_read_iops | ≥ 0 |
| 节点硬盘读流量 | 节点硬盘读流量(MBytes/s) | zk_node_disk_read_throughout | ≥ 0 |
| 节点硬盘写IOPS | 节点硬盘写IOPS(个/s) | zk_node_disk_write_iops | ≥ 0 |
| 节点硬盘写流量 | 节点硬盘写流量(MBytes/s) | zk_node_disk_write_throughout | ≥ 0 |
7)ZK指标(其他指标)
| 指标名称 | 指标含义 | 指标英文名 | 取值范围 |
|---|---|---|---|
| 正在运行的分布式ddl | 正在运行的分布式ddl(个) | active_distributed_ddl | ≥ 0 |
| znode个数 | znode个数(个) | zk_znode_count | ≥ 0 |
| leaderServes配置 | leaderServes配置 | zk_leader_serves | ≥ 0 |