CCE节点故障检测 Prometheus指标采集 NPD 守护进程POD通过端口19901暴露Prometheus metrics指标,NPD Pod默认被注释metrics.alpha.kubernetes.io/customendpoints: '[{"api":"prometheus","path":"/metrics","port":"19901","names":""}]'。您可以自建Prometheus采集器识别并通过 说明 NPD插件为1.16.5版本以下时,Prometheus指标的暴露端口为20257。 目前指标信息包含异常状态计数problemcounter与异常状态problemgauge,如下所示 HELP problemcounter Number of times a specific type of problem have occurred.TYPE problemcounter counterproblemcounter{reason"DockerHung"} 0 problemcounter{reason"DockerStart"} 0 problemcounter{reason"EmptyDirVolumeGroupStatusError"} 0 ...HELP problemgauge Whether a specific type of problem is affecting the node or not.TYPE problemgauge gaugeproblemgauge{reason"CNIIsDown",type"CNIProblem"} 0 problemgauge{reason"CNIIsUp",type"CNIProblem"} 0 problemgauge{reason"CRIIsDown",type"CRIProblem"} 0 problemgauge{reason"CRIIsUp",type"CRIProblem"} 0 .. 版本记录 CCE插件版本记录 插件版本 支持的集群版本 更新特性 社区版本(仅1.17及以上版本集群支持) :::: 1.16.4 /v1.(17192123)./ 新增beta检查项ScheduledEvent,支持通过metadata接口检测宿主机异常导致虚拟机进行冷热迁移事件。该检查项默认不开启。 0.8.10 1.16.3 /v1.(17192123)./ 新增ResolvConf配置文件检查。 0.8.10 1.16.1 /v1.(17192123)./ 新增nodeproblemcontroller。支持基本故障隔离能力。 新增PID、FD、磁盘、内存、临时卷存储池、持久卷存储池检查项。 0.8.10 1.15.0 /v1.(17192123)./ 检测项全面加固,避免误报。 支持内核巡检。支持OOMKilling事件,TaskHung事件上报。 0.8.10 1.14.11 /v1.(171921)./ 适配CCE 1.21集群 0.7.1 1.14.5 /v1.(1719)./ 修复监控指标无法被获取的问题 []( 1.14.4 /v1.(1719)./ 适配ARM64节点部署 适配containerd运行时节点 0.7.1 1.14.2 /v1.(1719)./ 适配Kubernetes 1.19集群,新增支持Ubuntu操作系统和安全容器场景 0.7.1 1.13.8 /v1.15.11v1.17./ 修复容器隧道网络下CNI健康检查问题 调整资源配额 0.7.1 1.13.6 /v1.15.11v1.17./ 修复僵尸进程未被回收的问题 0.7.1 1.13.5 /v1.15.11v1.17./ 增加污点容忍配置 0.7.1 1.13.2 /v1.15.11v1.17./ 增加资源限制,增强cni插件的检测能力 0.7.1