活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      云容器引擎

      云容器引擎

        • 产品动态
        • DeepSeek专题
        • DeepSeek专题导航
        • 图解:DeepSeek与公有云深度融合
        • 从基础设施到智能中枢:DeepSeek如何重塑公有云服务价值链
        • 高性能GPU云主机助力DeepSeek深度应用
        • 天翼云SD-WAN与DeepSeek超强联动,开启云上高效互联新时代
        • 实践指南:DeepSeek驱动高效能云生态
        • GPU云主机/弹性云主机:零基础搭建DeepSeek云端环境指南
        • GPU物理机:物理机搭建DeepSeek指南
        • SD-WAN跨境:SD-WAN助力DeepSeek模型定向加速
        • 智算容器:云容器引擎与DeepSeek融合实践
        • DeepSeek-R1蒸馏模型部署
        • 函数计算:天翼云函数计算与DeepSeek大模型
        • Q&A:典型问题解析与策略应对
        • 产品介绍
        • 产品定义
        • 产品优势
        • 版本对比
        • 产品功能
        • 功能特性
        • 应用场景
        • 基本概念
        • 使用限制
        • 智算版产品介绍
        • 智算版产品概述
        • 智算版计费说明
        • 智算版使用限制
        • 计费说明
        • 计费项及其计费方式
        • 价格
        • 快速入门
        • 创建一个应用集群
        • 订购集群
        • 查看集群
        • 退订集群
        • 创建一个无状态工作负载
        • 创建工作负载及服务
        • 查看容器实例事件
        • 查看容器实例日志
        • 查看容器实例监控
        • 使用容器镜像实例推送和拉取镜像
        • 前提条件
        • 获取实例地址、登录用户名和密码
        • 创建命名空间
        • 创建镜像仓库
        • 登录镜像仓库实例
        • 推送镜像
        • 拉取镜像
        • 使用容器镜像服务发布容器应用
        • 创建一个智算版容器集群
        • 订购智算版容器集群
        • 退订智算版容器集群
        • 用户指南
        • 高危操作及解决方案
        • 概览
        • 集群
        • 集群概述
        • 集群概览
        • 基本信息
        • 连接信息
        • 集群资源
        • Kubernetes版本发布记录
        • Kubernetes 1.31版本说明
        • Kubernetes 1.29版本说明
        • Kubernetes 1.27版本说明
        • Kubernetes 1.25版本说明
        • Kubernetes 1.23版本说明
        • 新建集群
        • 搭建IPv4/IPv6双栈集群
        • 集群安全组规划配置
        • iptables与IPVS如何选择
        • 创建高可用集群
        • 制作节点自定义镜像
        • 自定义集群APIServer证书SAN
        • 使用ServiceAccount Token卷投影
        • 连接集群
        • 删除集群
        • 升级集群
        • 节点与节点池
        • 节点容器运行时说明
        • 节点操作系统说明
        • 节点
        • 节点标签
        • 节点管理
        • 监控节点
        • 为节点扩容数据盘
        • 节点资源预留策略
        • 节点重置
        • 纳管节点
        • 节点异常问题排查
        • 虚拟节点
        • 指定ECS和ECI的资源分配
        • 节点池概述
        • 节点池
        • 升级节点池
        • 扩缩容节点池
        • 修复节点操作系统CVE漏洞
        • 自定义节点池kubelet配置
        • 节点池节点恢复
        • 节点池管理
        • 命名空间
        • 工作负载(新版)
        • 工作负载概述
        • 创建无状态负载(Deployment)
        • 创建有状态负载(StatefulSet)
        • 创建守护进程(DaemonSet)
        • 创建普通任务(Job)
        • 创建定时任务(CronJob)
        • 使用cube-volcano
        • 设置容器健康检查
        • 设置容器生命周期
        • 添加环境变量
        • 配置负载调度策略
        • 负载调度策略概述
        • 设置负载的节点选择器(nodeSelector)
        • 设置节点亲和调度(nodeAffinity)
        • 设置工作负载亲和/反亲和调度(podAffinity/podAntiAffinity)
        • 配置负载容忍策略
        • 负载网络配置
        • 工作负载(旧版)
        • 无状态
        • 有状态
        • 守护进程
        • 任务
        • 定时任务
        • 容器组
        • 自定义资源
        • 设置容器规格
        • 设置调度策略
        • 网络
        • 网络概述
        • 集群网络概述
        • Service
        • Ingress
        • 服务发现DNS
        • 容器网络插件
        • Calico网络插件
        • Cubecni网络插件
        • 使用Cubecni网络插件
        • 为Pod配独占网卡和固定IP及独立子网、安全组
        • Service管理
        • Service概述
        • LoadBalancer类型Service
        • 通过Annotation配置负载均衡类型的服务
        • Ingress管理
        • Ingress概述
        • NGINX Ingress Controller
        • IngressFAQ
        • Ingress常见错误信息及故障排查方法
        • 服务发现DNS
        • DNS概述
        • CoreDNS介绍
        • DNS策略
        • NodeLocal DNSCache加速
        • DNS FAQ
        • DNS最佳实践
        • POD联网使用案例
        • 配置管理
        • 配置项
        • 保密字典
        • 镜像拉取凭证
        • 应用管理
        • 应用发布
        • 应用灰度发布
        • 应用原地升级
        • Pod异常问题排查
        • 存储
        • 存储概述
        • cstor-csi插件
        • 云硬盘存储(CT-EVS)
        • 云硬盘概述
        • 使用云盘动态存储卷
        • 使用云盘静态存储卷
        • 快照与备份
        • 弹性文件存储(CT-SFS)
        • 弹性文件概述
        • 使用SFS动态存储卷
        • 使用SFS静态存储卷
        • 对象存储(CT-ZOS)
        • 对象存储概述
        • 使用ZOS动态存储卷
        • 使用ZOS静态存储卷
        • 本地存储
        • 本地存储概述
        • 使用HostPath存储卷
        • 使用LocalPV动态存储卷
        • 使用LocalPV静态存储卷
        • 使用LVM动态存储卷
        • 并行文件(CT-HPFS)
        • 并行文件概述
        • 使用HPFS动态存储卷
        • 使用HPFS静态存储卷
        • 海量文件
        • 海量文件概述
        • 使用OceanFS动态存储卷
        • 使用OceanFS静态存储卷
        • 存储FAQ-CSI
        • 插件
        • 插件概述
        • 插件市场
        • 插件实例
        • 插件FAQ
        • 安全管理
        • 角色
        • 子账号授权
        • RBAC授权
        • 容器安全策略
        • 运维管理
        • 监控
        • Pod 水平自动扩缩(HPA)
        • 黑盒监控
        • 基础资源监控
        • 集群拓扑监控
        • 指标告警
        • 日志
        • 开启APIServer审计日志
        • 事件中心
        • 集群巡检
        • 故障诊断
        • 故障诊断概述
        • Service诊断
        • 节点诊断
        • Pod诊断
        • Ingress诊断
        • 集群备份
        • ETCD备份
        • 集群备份
        • 集群定时备份
        • ETCD备份保存到对象存储
        • 模板市场
        • 模板市场
        • 模板实例
        • 弹性伸缩
        • 弹性伸缩概述
        • 工作负载弹性伸缩
        • 容器定时伸缩(CronHPA)
        • 容器水平伸缩(HPA)
        • 容器垂直伸缩(VPA)
        • 节点弹性伸缩
        • 节点伸缩原理
        • 启用节点自动伸缩
        • 节点弹性伸缩策略
        • 调度
        • 任务调度
        • 使用Gang scheduling
        • 使用CPU拓扑感知调度
        • 在离线混部
        • 在离线混部概述
        • 在离线混部插件安装与卸载
        • 在离线应用优先级管理
        • 超卖调度与离线应用CPU压制
        • 高优先级应用的CPU独占与隔离
        • 容器磁盘读写限速
        • 容器网络限速
        • 智算版集群
        • 节点管理
        • 智算控制台
        • 智算套件
        • 任务调度策略
        • AI负载调度
        • GPU共享调度
        • 装箱调度(Binpack)
        • Gang Scheduling调度
        • GPU资源监控面板
        • 配置AK/SK
        • 配置HPFS
        • 最佳实践
        • 客户案例
        • 某交投能源充电桩项目
        • 某量子云平台迁移项目
        • 迁移
        • 将K8S集群迁移到云容器引擎集群
        • 容灾
        • 应用高可用部署推荐
        • 集群高可靠推荐配置
        • 安全
        • 密钥Secret的安全使用
        • 集群
        • 集群规格推荐规划
        • 搭建IPv4/IPv6双栈集群
        • 通过kubectl连接多集群
        • 节点和节点池
        • 操作系统升级
        • 使用等保加固版本CTyunOS镜像
        • 节点池最佳实践
        • 存储
        • 存储卷
        • 容器化Web访问MySQL
        • 自定义存储资源对象
        • 网络
        • 集群网络地址段规划实践
        • 负载均衡
        • 会话保持
        • Ingress
        • 如何将Ingress服务暴露到公网
        • CoreDNS配置优化实践
        • Cubecni插件扩容Pod子网
        • 集群安全组规则配置
        • 容器内获取客户端源IP
        • ELB访问控制配置
        • 工作负载
        • 使用容器镜像服务发布应用
        • 发布
        • 服务发布
        • Service实现灰度发布和蓝绿发布
        • Nginx Ingress实现灰度发布和蓝绿发布
        • 容器
        • 合理分配容器资源
        • 获取容器Core Dump
        • 容器升级业务不中断
        • 容器与节点时区同步
        • 容器中域名解析的最佳实践
        • 使用hostAliases配置Pod /etc/hosts
        • x86和ARM镜像的混合部署
        • 通过特权容器配置内核参数
        • 权限
        • 集群命名空间RBAC授权
        • 通过配置kubeconfig文件实现集群权限精细化管理
        • 智算版集群
        • PyTorch 分布式训练任务
        • OpenSora 推理生成视频
        • API参考
        • API使用说明
        • 附录
        • 云容器引擎资源池
        • 如何获取接口URI中参数
        • password字段加密的方法
        • 节点规格和节点镜像
        • 常见问题
        • 计费
        • 订购
        • 节点
        • 集群
        • 工作负载
        • Pod异常问题排查
        • 启动实例失败时的重试机制是怎样的?
        • 存储管理
        • API&kubectl
        • 用户访问集群API Server的方式有哪些?
        • 如果不配置集群管理权限,是否可以使用kubectl命令呢?
        • 网络
        • Ingress相关问题
        • Service相关问题
        • 监控
        • 域名DNS
        • DNS解析异常问题排查
        • 其他
        • 节点NTP时间不同步怎么排查?
        • 节点已经绑定EIP,仍无法访问公网yum源进行安装更新?
        • 接入集群如何通过IPv6接入管控实例
        • 视频专区
        • 文档下载
        • 操作手册
        • 相关协议
        • 服务协议
        • 服务等级协议
          无相关产品

          本页目录

          帮助中心云容器引擎常见问题工作负载Pod异常问题排查
          Pod异常问题排查
          更新时间 2024-12-31 16:04:24
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2024-12-31 16:04:24
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本节介绍了:关于Pod异常问题排查的诊断流程、排查方法、常见问题及对应的解决方案。

          诊断流程

          如果Pod状态异常,可通过查看Pod的事件、Pod的日志、Pod的配置等信息确定异常原因。大体排查流程如下。

           

          执行kubectl describe pod -n <pod所在命名空间> <podName>查看Pod事件,根据event中的报错信息,排查对应原因

          阶段一:调度问题

          • Pod未调度到节点.

          如果Pod长时间处于Pending状态,说明该Pod没有被安排到任何节点上运行。

          event中的报错信息说明处理方式
          no nodes available to schedule pods.当前集群中没有符合Pod要求的合适节点可供调度。1、查看集群中是否存在状态为NotReady的节点。如果存在,则对该类节点进行检查和修复。
          2、检查Pod中是否声明了nodeSelector、nodeAffinity或污点容忍。
          3、若不存在亲和性策略,可以检查kube-system命名空间下的kube-scheduler对应的pod是否正常运行、pod中有无异常日志。
          0/x nodes are available: x Insufficient cpu.
          0/x nodes are available: x Insufficient memory.
          当前集群中没有可用节点能够满足Pod所需的CPU或内存资源。在节点页面查看CPU、内存的使用情况,确定集群的资源使用率。

          1、若集群中的CPU或内存已经耗尽,可参考如下方法处理。
          1.1、调整工作负载副本数,删除或减少不必要的Pod。
          1.2、根据自身业务情况,调整Pod对应工作负载的CPU、内存资源的requests值和limits值。
          2、在集群中扩容新的节点。
          x node(s) didn't match node selector.
          x node(s) didn't match pod affinity/anti-affinity.
          当前集群现有节点中,没有节点满足Pod声明的nodeSelector要求或Pod亲和性podAffinity或podAnitiAffinity要求。1、检查并调整Pod的节点亲和性策略,包括节点标签、nodeSelector、nodeAffinity、节点污点和Pod容忍等。
          2、检查并调整Pod的Pod亲和性策略,如果Pod配置了podAffinity,则需要检查目标节点上是否有匹配的Pod存在;如果配置了podAntiAffinity,则需确认目标节点上没有不应共存的Pod。
          0/x nodes are available: x node(s) had taints that the pod didn't tolerate.当前集群中Pod需要调度的目标节点被打上了污点,不允许该Pod调度到该节点上。如果污点是由用户手动添加,您可以删除非预期的污点。如果无法删除污点,可以为Pod配置相应的容忍。

          如果污点为系统自动添加,您可以参见下文解决对应的问题,问题解决后等待Pod重新调度。
          0/x nodes are available: x Insufficient ephemeral-storage.节点临时存储容量不足。检查Pod是否配置了临时存储卷的限制,即Pod YAML中spec.containers.resources.request.ephemeral-storage的取值。如果取值过高,超出了节点的实际可用容量,Pod会调度失败。

          执行kubectl describe node | grep -A10 Capacity命令,查看各个节点上可用于临时存储的总容量。如果容量不足,可扩容节点磁盘或增加节点数量。
          0/x nodes are available: pod has unbound immediate PersistentVolumeClaims.Pod绑定PVC失败。检查Pod所指定的PVC或PV是否已经创建,通过kubectl describe pvc <pvc-name> 或 kubectl describe pv <pv-name>命令查看PVC、PV的Event信息,进一步进行判断。
          too many pods当前集群中运行的Pod数量超过kubelet可容纳的Pod最大值。默认情况下,kubelet启动参数--max-pods=110表明该节点最大只能容纳110个Pod。根据自身业务情况和集群资源使用情况,调整工作负载副本数,删除或减少不必要的Pod或修改kubelet的--max-pods启动参数值。
          系统自动添加的污点对应含义可能原因处理方法
          node.kubernetes.io/not-ready节点未准备好,处于NotReady状态。1、节点上kubelet进程异常
          2、节点主机状态异常,如:关机、hang死
          登录主机检查kubelet进程是否异常,有无错误日志
          node.kubernetes.io/unreachable节点控制器访问不到节点,相当于节点状况Ready 的值为Unknown。1、节点上kubelet进程异常
          2、master节点到异常节点之间主机网络异常
          1、登录主机检查kubelet进程是否异常,有无错误日志
          2、排查异常节点到master节点直接的主机网络
          node.kubernetes.io/memory-pressure节点存在内存压力。节点上Pod进程和主机进程占用了较多内存,内存使用率较高1、调整工作负载副本数,删除或减少不必要的Pod。2、根据自身业务情况,调整Pod对应工作负载的CPU、内存资源的requests值和limits值。
          3、在集群中扩容新的节点。
          node.kubernetes.io/disk-pressure节点存在磁盘压力。节点上Pod进程和主机进程占用了较多的磁盘空间,磁盘空间不足。1、清理主机上不再需要的大文件,如不再需要的镜像文件、日志文件等。
          2、新增磁盘挂载或扩容磁盘。
          3、在集群中扩容新的节点。
          node.kubernetes.io/pid-pressure节点存在PID压力。节点上Pod进程和主机进程占用了较多的Pid,进程数过多导致可分配Pid不足。1、尽量避免在k8s节点对应的主机上运行业务程序。
          2、调整工作负载副本数,删除或减少不必要的Pod。
          3、在集群中扩容新的节点。
          node.kubernetes.io/network-unavailable节点网络不可用。节点上网络插件Pod异常检查该节点上的网络插件Pod状态和Pod日志。
          node.kubernetes.io/unschedulable节点不可调度。节点被驱逐检查是否人为将该节点设置为驱逐,可通过执行kubectl uncordon <nodeName>恢复。
          • Pod已调度到节点

          如果Pod已经被调度到某个节点上但仍处于Pending状态,请检查Pod是否配置了hostPort。如果Pod配置了hostPort,那么每个节点最多只能运行一个使用该hostPort的Pod实例。因此,工作负载的副本数不能超过集群中的节点数。

          检查该端口被主机上的其他进程占用。

          如果Pod没有配置hostPort,且Event中没有有效信息时,可查看该节点上的kubelet日志或系统日志(/var/log/messages*),根据Pod名称进行过滤,进一步排查Pod启动过程中存在的问题。

          阶段二:镜像拉取问题

          报错信息说明推荐的解决方案
          Failed to pull image "xxxx:xxx": rpc error: code = Unknown desc = Error response from daemon: Get https://xxxxxx/xxxxx/: dial tcp: lookup xxxxxxx.xxxxx: no such host从指定的镜像仓库地址拉取镜像时,镜像仓库域名解析失败。检查Pod YAML中spec.containers.image配置的镜像仓库地址是否正确。如有误,需修改对应工作负载中的镜像仓库地址为正确地址。

          如地址无误,需要排查从Pod所在节点到镜像仓库的主机网络是否异常。可登录到Pod所在节点,运行命令curl -kv https://xxxxxx/xxxxx/ 判断地址是否可以访问。如有报错,进一步判断是否存在网络配置、防火墙规则、DNS解析等主机网络异常问题。
          Failed create pod sandbox: rpc error: code = Unknown desc = failed to create a sandbox for pod "xxxxxxxxx": Error response from daemon: mkdir xxxxx: no space left on device节点磁盘空间不足。登录到Pod所在节点,运行df -h查看磁盘空间状态。如磁盘已满,请清理主机上不再需要的大文件或扩容磁盘。
          Failed to pull image "xxxxx": rpc error: code = Unknown desc = Error response from daemon: Get https://xxxxxxx: xxxxx/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)无法连接镜像仓库,网络不通。登录到Pod所在节点,运行cmd命令curl https://xxxxxx/xxxxx/判断地址是否可以访问。如有报错,进一步判断是否存在网络配置、防火墙规则、DNS解析等网络访问问题。

          如果是公网镜像,判断节点的公网策略是否正常,例如NAT网关、绑定的弹性公网IP等配置。

          阶段三:启动问题

          • Pod处于init状态

          错误信息说明推荐的解决方案
          停留在Init:N/M状态该Pod包含M个初始化容器中的N个已经启动完成,剩余的容器未启动成功。1.通过kubectl describe pod -n <ns> <pod name>命令查看Pod的事件,确认当前Pod中未启动的初始化容器是否存在异常。
          2.通过kubectl logs -n <ns> <podName> -c <containerName>命令查看Pod中未成功启动的初始化容器的日志,通过日志内容排查问题。
          3.查看Pod的配置,例如检查健康检查配置,进一步确认未成功启动的初始化容器配置是否正常。
          停留在Init:Error状态Pod中的初始化容器启动失败。
          停留在Init:CrashLoopBackOff状态Pod中的初始化容器启动失败并处于反复重启状态。
          • Pod启动失败(CrashLoopBackOff)

          错误信息说明推荐的解决方案
          日志中存在exit(0)。容器中前台进程执行完毕正常退出。非Job类型工作负载对应的Pod容器需要前台进程作为常驻进程,若前台进程执行完毕且无常驻进程,容器就会正常退出,kubelet检测到容器退出后重新拉起该容器,进而导致容器一直在重启。

          修改容器主进程为常驻进程。
          Event信息中存在Liveness probe failed:。容器健康检查失败。核查Pod中所配置的容器健康检查(Liveness Probe)策略是否符合预期,以及对应的健康检查条件是否满足。
          Pod日志中存在no left space。磁盘空间不足。清理主机上不再需要的大文件或扩容磁盘。
          启动失败,无Event信息。可能是Pod中声明的Limit资源少于实际Pod进程启动所需资源。检查Pod的资源配置是否正确。
          Pod日志中出现Address already in use。同一Pod中的Container端口存在冲突。检查Pod是否配置了hostNetwork: true,这意味着Pod内的容器会直接与宿主机共享网络接口和端口空间。如果无需使用,请改为hostNetwork: false。
          如果Pod需要使用hostNetwork: true,请配置Pod的反亲和性,确保同一副本集中的Pod被调度到不同节点。
          检查并确保不存在也不会有两个或多个具有相同端口需求的Pod运行在同一台节点上。
          检查主机上是否有主机进程占用了该端口,尽量避免在k8s节点主机上直接部署业务进程。
          Pod日志中出现container init caused \"setenv: invalid argument\"": unknown。工作负载中挂载了Secret,但Secret对应的值没有进行Base64加密。通过控制台创建Secret,Secret对应的值会自动进行Base64加密。
          通过YAML创建Secret,并执行echo -n "xxxxx" | base64命令手动对密钥值进行Base64加密。
          无相关信息。可能是业务Pod自身问题,如业务容器中进程启动参数有误。查看Pod日志,通过业务日志内容排查问题。

          阶段四:Pod运行问题

          • OOM

          当集群中的容器使用超过其限制的内存,容器可能会被终止,触发OOM(Out Of Memory)事件,导致容器异常退出。

          OOM可能原因说明推荐的解决方案
          系统内存不足查看Pod所在节点的内核日志/var/log/messages,日志中存在Killed Process,但不存在kubepods相关日志;且主机内存使用量较高,表明是主机操作系统内存不足。可能是系统全局内存不足、内存碎片化严重、内存泄露等。可提单排查。
          Pod内存不足查看Pod所在节点的内核日志/var/log/messages,日志中存在类似Task in /kubepods.slice/xxxxx killed as a result of limit of /kubepods.slice/xxxx的报错信息,且主机内存使用量不高或Pod的资源Limit值设置得较小,表明OOM为cgroup级别。根据业务实际运行需要,适当增大Pod的内存Limit。
          • Terminating

          可能原因说明推荐的解决方案
          节点存在异常,处于NotReady状态。节点存在异常,处于NotReady状态。处于NotReady状态的节点恢复正常后会被自动删除。
          Pod配置了Finalizers。如果Pod配置了Finalizers,Kubernetes会在删除Pod之前执行Finalizers指定的清理操作。如果相关的清理操作没有正常响应,Pod将保持在Terminating状态。通过kubectl get pod -n <ns> <podName> -o yaml查看Pod是否配置了Finalizers,进一步排查异常原因。
          Pod的preStop配置异常。如果Pod配置了preStop,Kubernetes会在c。Pod正处于终止流程的preStop阶段时,Pod将处于Terminating状态。通过kubectl get pod -n <ns> <pod name> -o yaml查看Pod的preStop配置,进一步排查异常原因。
          Pod配置了优雅退出时间。如果Pod配置了优雅退出时间(terminationGracePeriodSeconds),Pod收到终止命令后(例如kubectl delete pod <pod_name>命令)会进入Terminating状态。等待terminationGracePeriodSeconds设定的时间后,或容器提前退出后,Kubernetes才认为Pod已经成功关闭。等待容器优雅退出后,Kubernetes将自动删除Pod。
          容器无响应。发起停止或删除Pod的请求后,Kubernetes会向Pod内的容器发送SIGTERM信号。如果容器在终止过程中没有正确响应SIGTERM信号,Pod可能会停留在Terminating状态使用kubectl delete pod <pod-name> --grace-period=0 --force强制删除,释放Pod资源。
          检查Pod所在节点的containerd或Docker日志,进一步进行排查。
          • Evicted

          可能原因说明推荐的解决方案
          发生了非预期的驱逐行为。待运行Pod的节点被手动打上了NoExecute的污点,导致出现非预期的驱逐行为。通过kubectl describe node <node name> | grep Taints命令检查节点是否被打上了NoExecute污点。如是,请删除。
          节点存在资源压力,包括内存不足、磁盘空间不足等,引发kubelet主动驱逐节点上的一个或者多个Pod,以回收节点资源。可能存在内存压力、磁盘压力、Pid压力等。可以通过kubectl describe node <node name> | grep Taints命令查询。

          内存压力:带有污点node.kubernetes.io/memory-pressure。
          磁盘压力:带有污点node.kubernetes.io/disk-pressure。
          Pid压力:带有污点node.kubernetes.io/pid-pressure。
          内存压力:
          根据自身业务情况,调整Pod的资源配置。

          磁盘压力:
          定时清理节点上的业务Pod日志,防止磁盘空间被耗尽。
          为节点进行磁盘扩容。

          Pid压力:根据自身业务情况,调整Pod的资源配置。
          容器被驱逐后仍然频繁调度到原节点。节点驱逐容器时会根据节点的资源使用率进行判断,而容器的调度规则是根据节点上的“资源分配量”进行判断,被驱逐的Pod有可能被再次调度到这个节点,从而出现频繁调度到原节点的现象。根据集群节点的可分配资源检查Pod的资源Request请求配置是否合理。
          未按照预期流程执行驱逐。--pod-eviction-timeout:当节点宕机时间超过设置时间后,开始驱逐宕机节点上的Pod,默认为5min。
          --node-eviction-rate:每秒从节点上驱逐的Pod数量。默认为0.1,即每10s至多从一个节点上驱逐Pod。
          --secondary-node-eviction-rate:第二档的节点驱逐速率。当集群中宕机节点过多时,节点驱逐速率会降低至第二档,默认值为0.01。
          --unhealthy-zone-threshold:可用区的不健康阈值,默认为0.55,即当宕机的节点数量超过总节点数的55%时,该可用区被判定为不健康。
          --large-cluster-size-threshold:集群的大规模阈值,默认为50,即当集群节点数量超过50时判定集群为大规模集群。
          在小规格的集群(集群节点数小于等于50个节点)中,如果故障的节点大于总节点数的55%,实例的驱逐会被停止。
          在大规模集群中(集群节点数大于50),如果集群中不健康的节点数量占总节点数的比例超过了预设的阈值--unhealthy-zone-threshold(默认为0.55),驱逐速率由--secondary-node-eviction-rate控制(代表每分钟驱逐节点上Pod的最大比例),默认值为0.01。
          • Completed

          Completed状态下,Pod中容器的启动命令已执行完毕,容器中的所有进程均已成功退出。Completed状态通常适用于Job、Init容器等,该状态是正常状态。

           

           

           

           

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  工作负载
          下一篇 :  启动实例失败时的重试机制是怎样的?
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明