活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      分布式容器云平台

      分布式容器云平台

        • 产品动态
        • 产品简介
        • 产品定义
        • 产品优势
        • 产品功能
        • 应用场景
        • 使用限制
        • 计费说明
        • 计费项及计费方式
        • 价格
        • 计费FAQ
        • 快速入门
        • 入门指引
        • 用户指南
        • 授权管理
        • 授权概述
        • 资源委托协议
        • 注册集群
        • 注册集群概述
        • 天翼云注册集群
        • 本地注册集群
        • 三方云注册集群
        • 注册集群控制台
        • 注册集群控制台概述
        • 存储
        • 对象存储
        • 插件
        • 插件市场
        • 运维
        • Prometheus 监控
        • 备份
        • ETCD 备份
        • 集群备份
        • 集群定时备份
        • 集群巡检
        • 日志中心
        • 故障诊断
        • 容器舰队
        • 容器舰队概述
        • 创建容器舰队
        • 集群联邦
        • 集群联邦概述
        • 集群联邦网络规划
        • 订购集群联邦
        • 管理联邦成员集群及其网络连通方式
        • 通过KubeConfig文件连接集群联邦
        • 联邦资源管理
        • 联邦资源管理概述
        • 策略管理
        • 调度策略
        • 差异化策略
        • 命名空间
        • 工作负载
        • 网络
        • 配置管理
        • 存储
        • 平台服务
        • 权限配置
        • 权限配置概述
        • IAM 授权
        • RBAC 授权
        • 生态中心
        • 容器迁移
        • 容器迁移概述
        • 集群元数据备份与恢复
        • 跨集群跨地域容灾迁移
        • 应用迁移
        • 天翼云同资源池迁移
        • 天翼云跨资源池迁移
        • 本地IDC->天翼云
        • 三方云->天翼云
        • 孤岛->天翼云
        • 最佳实践
        • 统一管理任意环境下的Kubernetes集群
        • 基于集群联邦进行多集群应用分发与管理
        • 使用集群联邦实现应用多活容灾
        • 打通注册集群与联邦实例之间的联通网络
        • Pod 水平自动伸缩
        • 分布式存储Ceph最佳实践
        • 某公司权限设计及配置实践
        • API参考
        • API使用说明
        • 常见问题
        • 注册集群
        • 集群联邦
        • 故障修复
        • 常见故障
        • 相关协议
        • 服务协议
        • 服务等级协议
          无相关产品

          本页目录

          帮助中心分布式容器云平台用户指南注册集群注册集群控制台运维故障诊断
          故障诊断
          更新时间 2025-07-03 21:54:34
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2025-07-03 21:54:34
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本节介绍故障诊断。

          概述

          分布式容器云平台提供一键故障诊断能力,包括Service诊断、节点诊断、Pod诊断、Ingress诊断,辅助定位集群中出现的异常问题。

          诊断维度说明
          Service诊断Service相关问题,例如Service后端就绪Pod、异常事件信息等。
          节点诊断节点相关问题,例如K8s节点NotReady等。
          Pod诊断K8s Pod状态异常相关的问题,例如Pod启动失败、Pod频繁重启等。
          Ingress诊断Ingress相关流量配置问题。

          前提条件

          1. 已完成集群注册,具体操作请参见 本地注册集群 / 三方云注册集群。

          2. 确保注册集群运行状态处于运行中。

          操作步骤

          配置故障诊断

          注意

          使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本、负载、Docker、kubelet等运行状态以及系统日志中的关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。

          配置Service、节点、Pod、Ingress等诊断操作类似。下文以配置节点诊断为例,介绍如何配置故障诊断功能。

          1. 登陆分布式容器云平台,在左侧导航栏中选择集群资源 > 集群管理,进入注册集群列表页。

          2. 在注册集群列表中点击需要配置故障诊断的集群,进入单集群管理页面。

          3. 在单集群管理页面导航栏中选择运维管理 > 故障诊断,进入故障诊断页面。

          4. 在故障诊断页面,点击节点诊断页面,在选择节点面板,选择需要诊断的节点名称,点击确定按钮发起诊断。

          在诊断列表页面可查看诊断进展。诊断完成后,诊断页面将显示诊断结果。

          查看诊断结果

          在故障诊断页面诊断列表的操作列,点击目标诊断报告对应的诊断详情,在诊断详情页面查看详细诊断结果,诊断项状态为异常时,需要确认,如果是引起集群异常的问题需要处理。

          注意

          根据集群配置,具体检查项可能稍有不同。实际结果请以诊断页面结果为准。

          支持的诊断项

          诊断维度诊断项说明修复方案
          Service
           
          检查Service后端Ready Pod数量 检查Service后端Ready Pod数量。检查业务Pod状态,保证Pod存在且处于Ready状态。
          检查Service是否存在异常事件检查集群中是否存在与该Service相关的异常事件。 请检查并处理Service异常事件中的描述信息,若无法处理,请提交工单。
          节点检查节点是否存在检查集群中是否存在该节点。请检查Node在集群中是否存在。
          检查节点状态是否Ready检查节点在集群中的状态是否为Ready。请登录到节点上执行systemctl status kubelet或journalctl -exu kubelet查看节点上kubelet进程异常日志并尝试修复。
          检查节点状态是否不可调度检查节点是否不可调度,不可调度的节点会影响Pod的正常运行。节点不可调度,请检查节点调度设置。
          检查节点CPU装载率是否过高检查节点CPU资源分配率是否过高。请检查节点上pod的CPU request值设置的合理性。
           
          检查节点内存装载率是否过高检查节点内存资源分配率是否过高。请检查节点上pod的Memory request值设置的合理性。
           
          检查节点磁盘压力检查节点磁盘使用率是否过高。请检查节点磁盘使用情况,及时清理磁盘中不需要的文件或扩容磁盘。
           
          检查节点PID压力检查节点PID使用率是否过高。请检查节点PID使用情况。
           
          检查节点Chronyd进程状态是否正常检查节点Chronyd进程是否异常,该进程异常可能会影响系统时钟同步。节点Chronyd进程异常,可能影响节点系统时间同步。请尝试通过命令systemctl restart chronyd重启节点Chronyd进程。
          检查节点Ntpd进程状态是否正常检查节点Ntpd进程是否异常,该进程异常时可能会影响系统时钟同步。节点Ntpd进程异常,可能影响节点系统时间同步。请尝试通过命令systemctl restart ntpd重启节点Ntpd进程。
          检查节点Containerd状态是否正常检查节点Containerd服务的状态,该进程异常时可能会影响Pod的正常运行。节点Containerd状态异常,请收集节点日志并提交工单处理。
          检查节点Containerd镜像拉取是否正常检查节点Containerd进程拉取pause镜像是否正常。请检查节点网络及镜像配置。
          检查节点Docker状态是否正常检查节点Dockerd服务的状态,该进程异常时可能会影响Pod的正常运行。节点Docker状态异常,请收集节点日志并提交工单处理。
          检查节点Docker镜像拉取是否正常检查节点Docker进程拉取pause镜像是否正常。请检查节点网络及镜像配置。
          检查节点Kubelet状态是否正常检查节点Kubelet服务的状态,该进程可能会影响Pod的正常运行。请检查节点kubelet日志。
          检查节点Kubelet启动时间检查节点Kubelet进程启动时间。无
          节点OS版本检查节点操作系统版本。无
          节点内核版本检查节点内核版本是否过低,内核版本过低可能造成系统异常。请尝试更换节点升级内核。
          节点Systemd版本检查节点systemd版本。无
          节点runc版本检查节点runc版本,runc版本过低可能造成系统异常。无
          节点系统时间检查节点系统时间。无
          节点硬件时间检查节点硬件时间。无
          节点硬件时间漂移检查节点硬件时钟与系统时间是否一致,时间相差超过2分钟可能引起组件异常。请尝试登录节点,通过命令hwclock --systohc将节点系统时间同步到硬件时间。
          检查节点内存交换区开启情况检查节点内存交换区 (Memory Swap) 功能是否开启,K8s默认要求关闭内存交换区。当前节点内存交换区 (Memory Swap) 功能不支持开启,请登录节点关闭该功能。
          检查Conntrack表使用情况检查节点Conntrack表是否满,Conntrack表满可能影响网络性能。请检查nf_conntrack_buckets和nf_conntrack_max内核参数。
          检查节点访问集群API Server是否正常检查节点能否正常连接集群API Server,访问集群中其他K8s资源。请检查集群相关配置。请检查集群相关配置。检查Master组件Pod是否异常。API Server使用的负载均衡ELB是否异常。
          节点DNS服务地址检查节点能否正常使用主机DNS服务,通过主机DNS服务解析集群外域名。请检查主机DNS服务是否正常。更多信息,请参见DNS解析异常问题排查。
          检查节点内网IP是否存在检查节点内网IP是否存在。节点内网IP不存在,请尝试移除节点后重新导入。
          检查节点能否访问公网检查节点能否正常访问公网,无法访问公网可能影响公网镜像拉取。请检查集群是否开启SNAT公网访问。
          节点CPU使用率检查节点CPU负载是否过高,CPU负载过高可能影响系统性能。无
          节点内存使用率检查节点内存负载是否过高,内存过高可能影响系统性能。无
          Pod检查Pod是否存在检查集群中是否存在该Pod。请检查Pod在集群中对应命名空间下是否存在。
          检查Pod状态是否为Running
           
          检查Pod是否处于Running状态。请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
          Pod容器重启次数统计统计Pod中容器重启次数。请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
          检查Pod容器是否存在镜像下载阻塞情况检查Pod容器对应的镜像下载被阻塞。请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
          检查Pod容器镜像Secrets是否有效检查Pod拉取镜像的Secrets是否有效。请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
          检查Pod到主机网络DNS服务器的连通性
           
          检查Pod到主机网络DNS服务器的连通性。请检查Pod到主机网络DNS服务器的连通性。
           
          检查Pod容器进程处于D状态检查
           
          检查Pod内的容器进程是否处于D状态。Pod的部分容器进程处于D状态,通常为容器进程卡在磁盘IO中,请尝试重启宿主机ECS,如仍无法恢复,请提交工单处理。
          检查Pod是否初始化成功检查Pod是否正常初始化。请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
          检查Pod是否处于调度中状态检查Pod是否正常调度。请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
          检查Pod是否配置了livenessProbe探针
           
          检查Pod描述文件是否配置了livenessProbe探针。请为Pod配置合适的livenessProbe健康检查。
           
          检查Pod是否配置了ReadinessProbe探针
           
          检查Pod描述文件是否配置了ReadinessProbe探针。请为Pod配置合适的readinessProbe健康检查。
           
          检查Pod是否配置了资源requests
           
          检查Pod描述文件是否配置了资源requests。请为Pod配置合适的request资源申请。
           
          检查Pod是否配置了资源limits
           
          检查Pod描述文件否配置了资源limits。请为Pod配置合适的limit资源限制。
           
          检查Pod在过去24小时内是否存在OOM Kill情况
           
          检查Pod在过去24小时内是否存在因内存过载而被Kill的情况。请检查Pod是否配置了合适的limit资源限制,同时检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
          Ingress检查Ingress是否存在检查与转发规则匹配的Ingress是否存在。检查所提供的URL信息是否有能够对应的Ingress规则。若URL信息无误,可能是Ingress规则存在问题。
          检查Ingress名称规范检查所匹配到的Ingress名称是否规范。无
          检查是否使用了nginx.ingress.kubernetes.io/session-cookie-hash废弃注解检查是否使用了在0.24.0版本废弃的nginx.ingress.kubernetes.io/session-cookie-hash注解key。确认当前Ingress Controller版本,移除该注解或使用其他注解代替。
          检查是否使用了nginx.ingress.kubernetes.io/base-url-scheme废弃注解检查是否使用了在0.22.0版本废弃的nginx.ingress.kubernetes.io/base-url-scheme注解key。确认当前Ingress Controller版本,移除该注解或使用其他注解代替。
          检查是否使用了nginx.ingress.kubernetes.io/secure-backends废弃注解检查是否使用了在0.21.0版本废弃的nginx.ingress.kubernetes.io/secure-backends注解key。确认当前Ingress Controller版本,移除该注解或使用其他注解代替。
          检查是否使用了nginx.com/nginx.org注解检查是否使用了不兼容社区版Nginx Ingress Controller的商业版Ingress注解key(以nginx.com/nginx.org开头)。请使用对应功能的正确用法。关于Ingress更多信息,请参见社区官方文档Nginx Ingress Controller。(引用到官方文档)
          检查是否使用了nginx.ingress.kubernetes.io/grpc-backend废弃注解检查是否使用了在0.21.0版本废弃的nginx.ingress.kubernetes.io/grpc-backend注解key。确认当前Ingress Controller版本,移除该注解或使用其他注解代替。
          检查是否使用了nginx.ingress.kubernetes.io/mirror-uri废弃注解检查是否使用了在0.24.0版本废弃的nginx.ingress.kubernetes.io/mirror-uri注解key。确认当前Ingress Controller版本,移除该注解或使用其他注解代替。
          检查是否启用了canary使用了nginx.ingress.kubernetes.io/canary相关注解,但value值为"false‘,如果需要使用灰度功能,请指定nginx.ingress.kubernetes.io/canary: "true"。如果您需要在该Ingress上开启Canary功能,请在Ingress规则上添加nginx.ingress.kubernetes.io/canary: "true"注解。
          检查Ingress是否存在异常事件检查集群中是否存在与该Ingress相关的异常事件。检查并处理异常事件描述信息中的报错,如无法解决,请提交工单处理。
          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  日志中心
          下一篇 :  容器舰队
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明