故障诊断 诊断维度 诊断项 说明 修复方案 Service 检查Service后端Ready Pod数量 检查Service后端Ready Pod数量。 检查业务Pod状态,保证Pod存在且处于Ready状态。 Service 检查Service是否存在异常事件 检查集群中是否存在与该Service相关的异常事件。 请检查并处理Service异常事件中的描述信息,若无法处理,请提交工单。 节点 检查节点是否存在 检查集群中是否存在该节点。 请检查Node在集群中是否存在。 节点 检查节点状态是否Ready 检查节点在集群中的状态是否为Ready。 请登录到节点上执行systemctl status kubelet或journalctl exu kubelet查看节点上kubelet进程异常日志并尝试修复。 节点 检查节点状态是否不可调度 检查节点是否不可调度,不可调度的节点会影响Pod的正常运行。 节点不可调度,请检查节点调度设置。 节点 检查节点CPU装载率是否过高 检查节点CPU资源分配率是否过高。 请检查节点上pod的CPU request值设置的合理性。 节点 检查节点内存装载率是否过高 检查节点内存资源分配率是否过高。 请检查节点上pod的Memory request值设置的合理性。 节点 检查节点磁盘压力 检查节点磁盘使用率是否过高。 请检查节点磁盘使用情况,及时清理磁盘中不需要的文件或扩容磁盘。 节点 检查节点PID压力 检查节点PID使用率是否过高。 请检查节点PID使用情况。 节点 检查节点Chronyd进程状态是否正常 检查节点Chronyd进程是否异常,该进程异常可能会影响系统时钟同步。 节点Chronyd进程异常,可能影响节点系统时间同步。请尝试通过命令systemctl restart chronyd重启节点Chronyd进程。 节点 检查节点Ntpd进程状态是否正常 检查节点Ntpd进程是否异常,该进程异常时可能会影响系统时钟同步。 节点Ntpd进程异常,可能影响节点系统时间同步。请尝试通过命令systemctl restart ntpd重启节点Ntpd进程。 节点 检查节点Containerd状态是否正常 检查节点Containerd服务的状态,该进程异常时可能会影响Pod的正常运行。 节点Containerd状态异常,请收集节点日志并提交工单处理。 节点 检查节点Containerd镜像拉取是否正常 检查节点Containerd进程拉取pause镜像是否正常。 请检查节点网络及镜像配置。 节点 检查节点Docker状态是否正常 检查节点Dockerd服务的状态,该进程异常时可能会影响Pod的正常运行。 节点Docker状态异常,请收集节点日志并提交工单处理。 节点 检查节点Docker镜像拉取是否正常 检查节点Docker进程拉取pause镜像是否正常。 请检查节点网络及镜像配置。 节点 检查节点Kubelet状态是否正常 检查节点Kubelet服务的状态,该进程可能会影响Pod的正常运行。 请检查节点kubelet日志。 节点 检查节点Kubelet启动时间 检查节点Kubelet进程启动时间。 无 节点 节点OS版本 检查节点操作系统版本。 无 节点 节点内核版本 检查节点内核版本是否过低,内核版本过低可能造成系统异常。 请尝试更换节点升级内核。 节点 节点Systemd版本 检查节点systemd版本。 无 节点 节点runc版本 检查节点runc版本,runc版本过低可能造成系统异常。 无 节点 节点系统时间 检查节点系统时间。 无 节点 节点硬件时间 检查节点硬件时间。 无 节点 节点硬件时间漂移 检查节点硬件时钟与系统时间是否一致,时间相差超过2分钟可能引起组件异常。 请尝试登录节点,通过命令hwclock systohc将节点系统时间同步到硬件时间。 节点 检查节点内存交换区开启情况 检查节点内存交换区 (Memory Swap) 功能是否开启,K8s默认要求关闭内存交换区。 当前节点内存交换区 (Memory Swap) 功能不支持开启,请登录节点关闭该功能。 节点 检查Conntrack表使用情况 检查节点Conntrack表是否满,Conntrack表满可能影响网络性能。 请检查nfconntrackbuckets和nfconntrackmax内核参数。 节点 检查节点访问集群API Server是否正常 检查节点能否正常连接集群API Server,访问集群中其他K8s资源。 请检查集群相关配置。请检查集群相关配置。检查Master组件Pod是否异常。API Server使用的负载均衡ELB是否异常。 节点 节点DNS服务地址 检查节点能否正常使用主机DNS服务,通过主机DNS服务解析集群外域名。 请检查主机DNS服务是否正常。更多信息,请参见 节点 检查节点内网IP是否存在 检查节点内网IP是否存在。 节点内网IP不存在,请尝试移除节点后重新导入。 节点 检查节点能否访问公网 检查节点能否正常访问公网,无法访问公网可能影响公网镜像拉取。 请检查集群是否开启SNAT公网访问。 节点 节点CPU使用率 检查节点CPU负载是否过高,CPU负载过高可能影响系统性能。 无 节点 节点内存使用率 检查节点内存负载是否过高,内存过高可能影响系统性能。 无 Pod 检查Pod是否存在 检查集群中是否存在该Pod。 请检查Pod在集群中对应命名空间下是否存在。 Pod 检查Pod状态是否为Running 检查Pod是否处于Running状态。 请检查Pod状态及日志。更多信息,请参见 Pod Pod容器重启次数统计 统计Pod中容器重启次数。 请检查Pod状态及日志。更多信息,请参见 Pod 检查Pod容器是否存在镜像下载阻塞情况 检查Pod容器对应的镜像下载被阻塞。 请检查Pod状态及日志。更多信息,请参见 Pod 检查Pod容器镜像Secrets是否有效 检查Pod拉取镜像的Secrets是否有效。 请检查Pod状态及日志。更多信息,请参见 Pod 检查Pod到主机网络DNS服务器的连通性 检查Pod到主机网络DNS服务器的连通性。 请检查Pod到主机网络DNS服务器的连通性。 Pod 检查Pod容器进程处于D状态检查 检查Pod内的容器进程是否处于D状态。 Pod的部分容器进程处于D状态,通常为容器进程卡在磁盘IO中,请尝试重启宿主机ECS,如仍无法恢复,请提交工单处理。 Pod 检查Pod是否初始化成功 检查Pod是否正常初始化。 请检查Pod状态及日志。更多信息,请参见 Pod 检查Pod是否处于调度中状态 检查Pod是否正常调度。 请检查Pod状态及日志。更多信息,请参见 Pod 检查Pod是否配置了livenessProbe探针 检查Pod描述文件是否配置了livenessProbe探针。 请为Pod配置合适的livenessProbe健康检查。 Pod 检查Pod是否配置了ReadinessProbe探针 检查Pod描述文件是否配置了ReadinessProbe探针。 请为Pod配置合适的readinessProbe健康检查。 Pod 检查Pod是否配置了资源requests 检查Pod描述文件是否配置了资源requests。 请为Pod配置合适的request资源申请。 Pod 检查Pod是否配置了资源limits 检查Pod描述文件否配置了资源limits。 请为Pod配置合适的limit资源限制。 Pod 检查Pod在过去24小时内是否存在OOM Kill情况 检查Pod在过去24小时内是否存在因内存过载而被Kill的情况。 请检查Pod是否配置了合适的limit资源限制,同时检查Pod状态及日志。更多信息,请参见 Ingress 检查Ingress是否存在 检查与转发规则匹配的Ingress是否存在。 检查所提供的URL信息是否有能够对应的Ingress规则。若URL信息无误,可能是Ingress规则存在问题。 Ingress 检查Ingress名称规范 检查所匹配到的Ingress名称是否规范。 无 Ingress 检查是否使用了nginx.ingress.kubernetes.io/sessioncookiehash废弃注解 检查是否使用了在0.24.0版本废弃的nginx.ingress.kubernetes.io/sessioncookiehash注解key。 确认当前Ingress Controller版本,移除该注解或使用其他注解代替。 Ingress 检查是否使用了nginx.ingress.kubernetes.io/baseurlscheme废弃注解 检查是否使用了在0.22.0版本废弃的nginx.ingress.kubernetes.io/baseurlscheme注解key。 确认当前Ingress Controller版本,移除该注解或使用其他注解代替。 Ingress 检查是否使用了nginx.ingress.kubernetes.io/securebackends废弃注解 检查是否使用了在0.21.0版本废弃的nginx.ingress.kubernetes.io/securebackends注解key。 确认当前Ingress Controller版本,移除该注解或使用其他注解代替。 Ingress 检查是否使用了nginx.com/nginx.org注解 检查是否使用了不兼容社区版Nginx Ingress Controller的商业版Ingress注解key(以nginx.com/nginx.org开头)。 请使用对应功能的正确用法。关于Ingress更多信息,请参见社区官方文档 。(引用到官方文档) Ingress 检查是否使用了nginx.ingress.kubernetes.io/grpcbackend废弃注解 检查是否使用了在0.21.0版本废弃的nginx.ingress.kubernetes.io/grpcbackend注解key。 确认当前Ingress Controller版本,移除该注解或使用其他注解代替。 Ingress 检查是否使用了nginx.ingress.kubernetes.io/mirroruri废弃注解 检查是否使用了在0.24.0版本废弃的nginx.ingress.kubernetes.io/mirroruri注解key。 确认当前Ingress Controller版本,移除该注解或使用其他注解代替。 Ingress 检查是否启用了canary 使用了nginx.ingress.kubernetes.io/canary相关注解,但value值为"false‘,如果需要使用灰度功能,请指定nginx.ingress.kubernetes.io/canary: "true"。 如果您需要在该Ingress上开启Canary功能,请在Ingress规则上添加nginx.ingress.kubernetes.io/canary: "true"注解。 Ingress 检查Ingress是否存在异常事件 检查集群中是否存在与该Ingress相关的异常事件。 检查并处理异常事件描述信息中的报错,如无法解决,请提交工单处理。