节点池节点恢复 本节介绍节点池节点恢复的用户指南。 当节点发生异常时,云容器引擎会通过异常诊断、恢复决策,进而执行恢复任务,实现节点的故障恢复。本文主要介绍故障恢复的适用场景及恢复流程。 前提条件 部分诊断项目依赖nodeproblemdetecto插件和事件中心,请提前正确安装NPD和事件中心。 诊断条件 云容器引擎会监控节点的健康状态,依据节点的运行状况(Condition)动态决策是否可以启动节点恢复流程。通过执行 kubectl describe node命令,检查节点的Condition字段,可以获取详细的运行状态信息。一旦检测到节点状态异常,并且异常状态持续时间超过了预设的阈值(即故障持续达到一定时间),在云容器引擎控制台可以触发节点恢复机制,修复节点故障,确保集群的稳定性和高可用性。 检测项目 描述 检测来源 故障等级 阈值时间 恢复行为 KubeletNotReady(PLEG is not healthy) PLEG健康检查失败或运行时异常,导致节点NotReady。 kubernetes 高 3min 重启containerd或Docker。 NodeStatusUnknown(Kubelet stopped posting node status) kubelet意外停止工作,导致节点NotReady。 kubernetes 高 3min 重启kubelet。 RuntimeOffline containerd或Docker停止工作,节点不可用。 nodeproblemdetector 高 3min 重启containerd或Docker。 NTPProblem 时间同步服务异常。 nodeproblemdetector 高 30s 重启ntpd或chronyd。 ReadonlyFilesystem 节点文件系统变为只读。 nodeproblemdetector 高 90s 用户自行重启节点实例。 SystemdOffline Systemd状态异常,无法启动、销毁容器。 nodeproblemdetector 高 90s 用户自行重启节点实例。
来自: