爆款云主机低至25.83元/年
查看详情

活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 云聚517 · 好价翼起拼 NEW 爆款云主机低至25.83元/年,参与拼团享更多优惠,拼成得额外优惠券
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 企业出海解决方案 NEW 助力您的业务扬帆出海,通达全球!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
Token服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
智算一体机
  • 智算一体机
智能体引擎
  • 智能体引擎
智算安全专区
  • 大模型安全评测
  • 大模型安全护栏
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      微消息队列MQTT版_相关内容
      • IngressFAQ
        5. Ingress 控制器和服务不同步,如何解决? 如果你发现 Ingress 控制器和服务不同步,可能是由多种原因导致的。以下是一些可能的问题及其相应的解决方案。 Ingress 控制器没有正确配置或安装 :确保你正确安装并配置了 Ingress 控制器。检查 Ingress 控制器的 Pods 的状态和日志,以确认它们是否正在正常运行。如果存在任何错误,根据错误信息进行故障排查。 Ingress 规则没有正确配置 :检查你的 Ingress 资源的配置,确保你已正确定义了路由规则,并且这些规则指向了正确的服务和端口。 服务或 Pods 不可用 :Ingress 控制器将流量路由到服务,然后由服务路由到 Pods。如果服务或 Pods 不可用,可能会导致 Ingress 控制器和服务不同步。检查服务和 Pods 的状态,确保它们正在正常运行。 Kubernetes API 服务器不可用 :Ingress 控制器通过 Kubernetes API 服务器获取服务的信息。如果 API 服务器不可用,可能会导致 Ingress 控制器和服务不同步。检查 API 服务器的状态和日志,以确认它是否正在正常运行。 网络问题 :如果网络配置不正确,可能会导致 Ingress 控制器无法与服务或 Pods 通信。这可能是由于网络策略、防火墙规则或其他网络配置问题导致的。进行网络故障排查,以确认网络配置是否正确。解决这些问题可能需要查看和理解 Ingress 控制器、服务和 Pods 的日志,以及可能需要进行网络和 Kubernetes API 服务器的故障排查。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        网络
        Ingress管理
        IngressFAQ
      • Q&A:典型问题解析与策略应对
        天翼云提供了底层资源,DeepSeek模型还是要客户自己部署的吗? 天翼云提供了预置DeepSeek模型的镜像,开机即用。 DeepSeek模型、Ollama工具下载慢,我该怎么办? 目前使用天翼云的镜像源,可加快访问速度。如果想使用其他模型,也可以自定义部署。 昇腾版本和英伟达版本有啥区别? 昇腾和英伟达版本主要区别在于硬件设备(如A100和昇腾),具体的参数层面区别难以量化。 开箱即用的镜像,能否更换其他参数规模的模型? 可以的,GPU云主机提供了预置DeepSeek R1:7B 和DeepSeek R1:70B 两款模型镜像,提供了DeepSeek LLamaFactory模型微调镜像,并配备完整的ollama、openWebUI工具,用户可根据需要进行自定义部署。 模型部署过程中发现云盘的容量不够怎么办? 根据云硬盘扩容概述对已有云盘进行扩容或购买数据盘进行挂载。 天翼云公有云哪些资源池有DeepSeek预置镜像? 目前DeepSeek R1:7B Ubuntu云主机镜像,已上线至福州25、郑州5、长沙42、上海36、华北2、华南2、西南1、华东1,其余资源池按需加载;裸金属镜像DeepSeek R1:7B Ubuntu已上线上海15资源池,其余资源池按需加载。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        DeepSeek专题
        Q&A:典型问题解析与策略应对
      • 函数计算:天翼云函数计算与DeepSeek大模型
        函数计算:天翼云函数计算与DeepSeek大模型
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        DeepSeek专题
        实践指南:DeepSeek驱动高效能云生态
        函数计算:天翼云函数计算与DeepSeek大模型
      • 通过自定义域名访问集群
        本节介绍了通过自定义域名访问集群的用户指南。 前提条件 已经创建了一个天翼云账号,并且有一个已经创建好的云容器引擎集群。 集群中已经部署了应用服务,并且可以通过Cluster IP或NodePort进行访问。 已经拥有一个域名,并可以对其进行DNS配置。 创建Ingress Controller 登录云容器引擎控制台,单击集群名称进入集群。 在左侧导航栏中找到网络,下拉找到路由,点击路由,点击左上角创建路由。 创建Ingress Controller。 安装完成后,可以使用kubectl命令查看Ingress Controller的服务: plaintext kubectl get services n ingressnginx 确保ingressnginxcontroller服务已经创建并在运行。 创建Ingress资源 编写Ingress资源配置文件 创建一个新的YAML文件,例如myingress.yaml,内容如下: plaintext apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: myingress namespace: default spec: rules: host: http: paths: path: / pathType: Prefix backend: service: name: port: number: 替换 为您的自定义域名, 为您的Kubernetes服务名称, 为服务的端口号。 应用Ingress资源 使用kubectl应用刚才创建的Ingress资源文件: plaintext kubectl apply f myingress.yaml 验证Ingress资源是否已创建: plaintext kubectl get ingress 配置自定义域名的DNS记录 获取Ingress Controller的外部IP 使用以下命令获取Ingress Controller的外部IP: plaintext kubectl get services n ingressnginx 记录ingressnginxcontroller服务的EXTERNALIP。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        集群
        访问集群
        通过自定义域名访问集群
      • 设置资源配额与限制
        资源限制 资源类型 说明 默认资源限制 未指定资源限制时,每个容器的CPU、内存默认限制值 默认资源申请 未指定资源申请时,每个容器的CPU、内存默认申请值 最小资源限制 容器的最小资源请求值 最大资源限制 容器的最大资源限制值 注意 只填写最小资源限制或最大资源限制的情况下,Kubernetes会自动设置默认资源限制和默认资源申请 只填写最小资源限制时,Kubernetes会根据该值自动设置默认资源申请 有填写最大资源限制时,Kubernetes会根据该值自动设置默认资源限制、默认资源申请
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        命名空间
        设置资源配额与限制
      • 创建高可用集群
        本文介绍了创建高可用集群的用户指南。 天翼云云容器引擎具备多可用区(AZ)的能力。容器集群的控制节点与工作节点可以分别设置是否使用多可用区。 设置方法 1.创建高可用集群的方式与普通集群基本一致,仅在master配置与节点池配置处有区别。创建集群的其它操作可参考 快速入门 >​ 创建一个应用集群 ​>​ 订购集群 2.在master配置>已选规格>自定义各可用区的master数量,建议master分布到多可用区达到高可用目的。见下图 3.在节点池配置>已选规格>自定义各可用区的工作节点数量,建议将节点池内的节点部署在多个可用区。见下图
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        集群
        新建集群
        创建高可用集群
      • 网络策略
        配置名 示例值 选择器 namespaceSelector 命名空间 demo 标签 kubernetes.io/metadata.name: demo
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        网络
        容器网络插件
        Cubecni网络插件
        网络策略
      • 集群安全组规划配置
        方向 端口 协议 默认源/目的地址 说明 优先级(取值越小优先级越高) 是否支持修改 入方向规则 全部 TCP + UDP 198.19.128.0/20 VPCE内网地址段 99 不可修改 入方向规则 全部 TCP + UDP 100.64.0.0/10 内网DNS、云存储等云产品网段 99 不可修改 入方向规则 全部 TCP + UDP VPC网段 节点之间互访 99 不可修改 入方向规则 全部 TCP + UDP VPC IPv6网段 节点之间IPv6互访 99 不可修改 入方向规则 全部 TCP + UDP 100::/16 云产品IPv6网段 99 不可修改 出方向规则 全部 TCP 169.254.169.254/32 主机元数据服务地址 99 不可修改 出方向规则 全部 TCP + UDP 100.64.0.0/10 内网DNS、云存储等云产品网段 99 不可修改 出方向规则 全部 TCP + UDP VPC网段 节点之间互访 99 不可修改 出方向规则 全部 TCP + UDP VPC IPv6网段 节点之间IPv6互访 99 不可修改 出方向规则 全部 TCP + UDP 100::/16 云产品IPv6网段 99 不可修改 出方向规则 全部 TCP + UDP 0.0.0.0/0 默认全部放通,不建议修改 100 可修改 出方向规则 全部 TCP + UDP 0:0:0:0:0:0:0:0/0 默认全部放通,不建议修改 100 可修改
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        集群
        新建集群
        集群安全组规划配置
      • 节点维度的网络配置
        参数名 说明 action 值固定为override,默认为override,即子网/安全组配置会覆盖cubecniconfig的配置 iaassubnets 值为VPC子网ID列表。若配置多个子网,优先使用可用IP最多的子网;如无需修改,则无需配置iaassubnets,或值配置为null securitygroups 值为安全组ID列表。用于配置新建的Pod共享ENI,最多可配置5个;若无需修改,则无需配置securitygroups,或值配置为null
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        网络
        容器网络插件
        Cubecni网络插件
        节点维度的网络配置
      • 为Pod配独占网卡和固定IP及独立子网、安全组
        kubectl get eni e94e1cad753d4da6a3b254eb10a3 oyaml apiVersion: network.ccse.ctyun.cn/v1 kind: ElasticNetworkInterface metadata: name: e94e1cad753d4da6a3b2xxxx spec: idleTimeout: 36000 mode: binding nodeName: ccseagentjgzxxxxx podName: demo768fcfc9b8xxxx podNamespace: default resID: 64c2a49d2b01496bxxxxxxx securityGroupIDs: sg342bxxxxx subnetID: subnete5vaxxxxx status: eniInfo: instanceID: affe3664xxxxd1e7607ced186dxxxxx instanceType: "3" mac: fa:16:3e:5f:xx:xx mainIPv4: 192.168.x.x name: ccsecnixxxxa2bf4b6bxxxx networkInterfaceID: portqkqksxxxx securityGroupIDs: sg342bxxxx subnetID: subnete5vaexxxx subnetIPv4CIDR: 192.168.x.x/19 subnetIPv4Gateway: 192.168.x.x subnetIPv6Gateway: fe80::f816:3eff:xxxx:xxxx vpcID: vpcmpawzxxxxx message: resource prepare success nodeName: ccseagentjgzrxxxxx phase: Bound podLastSeen: "2025xxxxT08:46:24Z" Pod创建后为什么没有使用EniCfg中的网络配置? 1. 请确保EniCfg资源状态为Ready; 2. 请确保Pod标签和EniCfg中的podSelector标签匹配,且(或)Pod所在命名空间的标签与EniCfg中的namespaceSelector标签匹配; 3. 请检查EniCfg的spec.type值是否正确,值binding表示该EniCfg只作用于新建的使用独占ENI的Pod,值fixed表示该EniCfg仅作用于新建的使用固定ENI的有状态集。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        网络
        容器网络插件
        Cubecni网络插件
        为Pod配独占网卡和固定IP及独立子网、安全组
      • 高危操作及解决方案
        本节介绍了云容器引擎的高危操作及解决方案。 用户在使用容器集群进行业务的部署过程中,可能会执行一些潜在风险较高的操作,触发不同程度的业务故障。为更好地帮助用户预估和避免潜在的操作风险,本文从集群节点层面展示一些高危操作可能导致的后果,并提供相应的解决方案,以防止误操作。 节点类型 高危操作 后果 解决方案 master节点 节点到期或销毁 该master节点不可用若只有一个master节点,则集群不可用 不可恢复 master节点 自行改动master或etcd版本 可能引发集群不可用 master或etcd恢复原始版本 master节点 删除或者格式化/etc/kubernetes或/data/containerd等核心数据目录 该master节点不可用若只有一个master节点,则集群不可用 不可恢复 master节点 重装操作系统 master组件被删除,不可用若只有一个master节点,则集群不可用 不可恢复 master节点 删除或者卸载关键内核模块或内核文件 该master节点不可用若只有一个master节点,则集群不可用 不可恢复 master节点 修改操作系统配置 可能导致该master节点不可用若只有一个master节点,则集群不可用 请自行还原配置 master节点 自行修改核心组件参数 可能导致该master节点不可用 核心组件参数恢复配置 master节点 自行修改/etc/resolv.conf等配置文件原始内容 可能引发网络不通或拉取镜像失败 请自行还原配置文件原始内容 master节点 自行更换master或者etcd证书 可能引发集群不可用 不可恢复 master节点 更改节点IP master节点不可用 修改回原IP master节点 业务应用占用资源过高 核心组件或者主机节点不可用 请自行进行资源清理并进行合理资源配额限制 master节点 修改节点的主机名称 master节点不可用 修改回原主机名称 node节点 节点删除或到期 该节点不可用 不可恢复 node节点 重装操作系统 该节点不可用 不可恢复 node节点 删除或者卸载关键内核模块或内核文件 该节点不可用 不可恢复 node节点 修改操作系统配置 可能导致该节点不可用 尝试还原配置 node节点 自行修改核心组件参数 可能导致该节点不可用 核心组件参数恢复配置 node节点 删除或修改关键数据目录、删除数据盘 该节点不可用 不可恢复 node节点 修改节点内目录权限或者容器目录权限 权限异常 不建议修改,请自行恢复 node节点 更改节点IP 该节点不可用 修改回原IP node节点 业务应用占用资源过高 核心组件或者主机节点不可用 请自行进行资源清理并进行合理资源配额限制 node节点 修改节点的主机名称 该节点不可用 修改回原主机名称 容器集群开通节点时会创建以下互通的不可见安全组规则,请勿轻易更改安全组。 入方向/出方向规则 授权策略 IP版本 优先级 协议 网段 端口范围 解决方案 入方向 允许 IPV4 99 Any vpc网段 全部端口 不能更改该安全组规则 入方向 允许 IPV6 99 Any vpc网段 全部端口 不能更改该安全组规则 入方向 允许 IPV6 99 Any 100::/16 全部端口 不能更改该安全组规则 出方向 允许 IPV4 99 Any 所有网段 0.0.0.0/0 全部端口 不能更改该安全组规则 出方向 允许 IPV6 99 Any 所有网段 0:0:0:0:0:0:0:0/0 全部端口 不能更改该安全组规则
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        高危操作及解决方案
      • 启用节点自动伸缩
        配置优化 根据实际需求,可以调整Cluster Autoscaler的配置以优化节点伸缩性能。 1.调整扩容和缩容的延迟时间 scaleDownDelayAfterAdd:新增节点后等待的时间。 scaleDownUnneededTime:节点在被认为不需要前等待的时间。 2.调整资源利用率阈值: scaleDownUtilizationThreshold:低于该阈值的节点将被移除。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        弹性伸缩
        节点弹性伸缩
        启用节点自动伸缩
      • 节点弹性伸缩策略
        多个伸缩组在弹性伸缩的时候是如何被选择的? 在Pod处在无法调度时,会触发弹性伸缩组件的模拟调度逻辑,会根据伸缩组配置的标签和污点以及实例规格等信息进行判断。当配置的伸缩组可以模拟调度Pod的时候,就会被选择进行节点弹出。当同时有多个伸缩组满足模拟调度条件的时候,根据配置的策略选择。默认采用的是最少浪费原则,即根据模拟弹出后节点上剩余的资源最小为原则进行抉择。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        弹性伸缩
        节点弹性伸缩
        节点弹性伸缩策略
      • 节点伸缩原理
        本节介绍了节点伸缩原理。 工作原理 在Kubernetes中,节点自动伸缩的工作原理与传统意义上基于使用率阈值的模型有所差别,这也是很多开发者在从传统的IDC或者其他编排系统迁移到Kubernetes后最难理解的地方。 传统的弹性伸缩模型是基于使用率的,例如:一个集群中有3个节点,当集群中的节点CPU、内存使用率超过特定的阈值时,此时弹出新的节点。但当深入思考时会发现以下几个问题: 阈值是如何选择与判断的? 在一个集群中,部分热点节点的利用率会较高,而另外一个节点的利用率会很低。如果选择平均利用率的话可能会造成弹性伸缩的不及时。如果使用最低的节点的利用率,那么也会造成弹出资源的浪费。 弹出实例后是如何缓解压力的? 在Kubernetes中,应用是以Pod为最小单元,部署在集群的不同节点上的。当一个Pod资源利用率较高的时候,即便此时所在的节点或者集群的总量触发了弹性扩容,但是该应用的Pod数目,以及Pod对应的Limit没有任何变换,那么负载的压力是无法转移到新扩容出的节点上的。 如何判断以及执行实例的缩容? 如果基于资源利用率的方式判断节点是否缩容,那么很有可能出现,Request很大,但是Usage很小的Pod被驱逐,当集群中这种类型的Pod较多时,会导致集群的调度资源被占满,部分Pod无法调度。 Kubernetes节点伸缩是怎么解决以上问题的呢?Kubernetes是通过调度与资源解耦的两层弹性模型来解决的。 基于资源的使用率来触发应用副本的变化,也就是调度单元的变化。而当集群的调度水位达到100%的时候会触发资源层的弹性扩容,当资源弹出后,无法调度的单元会自动调度到新弹出的节点上,从而降低整个应用的负载状况。以下介绍Kubernetes弹性伸缩的技术细节: 如何判断节点的弹出? clusterautoscaler是通过对处在Pending的Pod进行监听而触发的。当Pod处在Pending的原因是调度资源不足的时候,会触发clusterautoscaler的模拟调度,模拟调度器会计算在配置的伸缩组中哪个伸缩组弹出节点后可以调度这些Pending的Pod。如果有伸缩组可以满足,那么就弹出相应的节点。 模拟调度就是将一个伸缩组当成一个抽象的Node,伸缩组中配置的机型规格对应会成为Node的CPU/内存/GPU的容量,然后设置伸缩组上面的Label、Taint,也就是Node的Label与Taint。模拟调度器会在调度模拟的时候,将该抽象的Node纳入调度参考。如果Pending的Pod可以调度到抽象的Node,那么就会计算所需的Node的数目,驱动伸缩组弹出节点。 如何判断节点的缩容? 首先只有弹性伸缩弹出的节点会被缩容,静态的节点是无法被clusterautoscaler接管的。缩容的判断是通过每个节点单独判断的。当任意一个节点的调度利用率低于所设置的调度阈值时,会触发节点的缩容判断。此时clusterautoscaler会尝试模拟驱逐节点上面的负载,判断当前节点是否可以排水彻底。有些特殊的Pod(kubesystem命名空间的非DaemonSet Pod、PDB控制的Pod等),则会跳过该节点而选择其他的候选节点。当节点发生驱逐时,会先进行排水,将节点上的Pod驱逐到其他的节点,然后再下线该节点。 多个分组之间如何选择? 不同分组之间,实际上相当于不同的虚拟的Node之间的选择,和调度策略一样,这里也存在一个打分的机制。首先符合调度策略的Node会先过滤出来,在符合调度策略的Node中,会根据affinity等亲和性的策略进行选择。如果上述的策略都不存在,默认情况下clusterautoscaler会通过leastwaste的策略来进行抉择。leastwaste的策略的核心就是模拟弹出节点后,剩余的资源最少。此外,有一个特别的场景,当有一个GPU的伸缩组和CPU的伸缩组同时可以弹出生效时,默认CPU会优先于GPU弹出。 如何提高弹性伸缩的成功率? 弹性伸缩的成功率主要取决如下两个因素: 1、调度策略是否满足 首先在配置好伸缩组后,开发者需要先确认下该伸缩组可以承载的Pod的调度策略范围。如果无法直接判断,最简单的方式是通过nodeSelector直接选择伸缩组的Label进行预弹模拟。 2、资源配置是否充分 当模拟调度通过后,会选择伸缩组进行弹出,但是伸缩组中配置的ECS规格是否有库存会直接决定是否可以成功弹出实例。因此配置多个节点池选择不同的规格可以大大提高弹出成功率。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        弹性伸缩
        节点弹性伸缩
        节点伸缩原理
      • Kubernetes 1.31版本说明
        本文介绍了:云容器引擎发布Kubernetes 1.31版本说明。 社区 Kubernetes 版本主要变更 Kubernetes 1.31 版本Changelog 1. StatefulSet 起始序号(GA),允许用户自定义 Pod 的起始序号(默认从 0 开始),例如设置为 100,适用于需要固定编号或特定顺序的应用场景(如分布式数据库)。 2. 弹性索引 Job(GA),支持在索引 Job 创建后动态调整 .spec.completions 和 .spec.parallelism 字段,实现任务弹性伸缩,无需重新创建 Job。 3. Pod 失效策略(GA),可根据 Pod 失效原因(如被抢占、节点删除、kubelet 终止等)分别配置处理逻辑(重试或忽略),避免不必要的 Pod 重启,降低运行成本。 4. Pod 干扰状况(GA),在 Pod 的 Condition 中新增 DisruptionTarget 类型,明确标记 Pod 失效原因(如被高优先级 Pod 抢占),结合 Job 的失效策略实现更精细的任务管理。 5. Job成功策略(Beta),JobSuccessPolicy特性进阶至Beta。该特性允许用户基于成功的Pod个数为Job配置成功策略。 6. 持久卷回收策略(Beta),确保 PV 的回收策略(如 Delete)在 PVC 删除后仍被强制执行,通过添加 Finalizer 防止存储资源泄漏,即使 PV 和 PVC 的删除顺序混乱也能保证一致性。 7. ServiceAccountTokenNodeBinding(Beta),创建绑定到特定节点的 Token,包含节点信息声明,并在 Token 使用时验证节点存在性。若节点被删除,Token 自动失效,降低凭证泄露风险。 8. 容器重启优化,当 Pod 配置变更但镜像未更新时,kubelet 不再强制重启容器,避免因非关键配置更新导致的不必要中断。 9. OCI 镜像卷(Alpha),允许将 OCI 镜像直接挂载为卷,简化 AI/ML 工作负载中模型和数据的访问,例如通过更换镜像快速更新模型权重。 更多信息请参考:Kubernetes 1.31 Changelog
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        集群
        集群概述
        Kubernetes版本发布记录
        Kubernetes 1.31版本说明
      • 节点容器运行时说明
        本节介绍了:节点容器运行时的用户指南。 容器运行时介绍 容器运行时是负责管理节点上容器的生命周期。Kubernetes通过 Kubelet 的 Container Runtime Interface(CRI)与容器运行时交互,控制容器的创建与管理。 基于 Containerd性能更好、更稳定、占用资源更少等优点,云容器引擎选择 Containerd作为容器运行时的解决方案。 云容器引擎早期在 Kubernetes v1.23上还支持选择 Docker,当前则需提工单申请,未来会移除对 Docker的支持,强烈建议您使用 Containerd或迁移到 Containerd。 云容器引擎选择 Containerd作为容器运行时的解决方案,对比 Docker,Containerd的优点如下: 1. 调用链更短 Containerd: Kubelet > CRI plugin(在 Containerd中)> Containerd Docker: K8s v1.23及以下版本:Kubelet > Dockershim(在 Kubelet中)> Docker > Containerd K8s v1.24及以上版本:Kubelet > cridockerd > Docker > Containerd 2. CPU和内存占用更少 3. 稳定性和安全性更好 4. Pod 启动更快 Containerd 和 Docker的常用命令对比 Containerd 支持两种命令行工具:ctr和 crictl。其中,ctr是 Containerd 的客户端工具,crictl是兼容 CRI 的容器运行时的命令行工具。crictl 可以用来检查和调试 Kubernetes节点上容器运行时和应用程序。 操作 Docker crictl ctr 上传镜像 docker push crictl push ctr n k8s.io i push 拉取镜像 docker pull crictl pull ctr n k8s.io i pull 查看镜像详情 docker inspect crictl inspecti 无 列出本地镜像列表 docker images crictl images ctr n k8s.io i ls 删除本地镜像 docker rmi crictl rmi ctr n k8s.io i rm 创建容器 docker create crictl create crt n k8s.io c create 启动容器 docker start crictl start crt n k8s.io run 连接容器 docker attach crictl attach 无 进入容器 docker exec crictl exec 无 查看容器详情 docker inspect crictl inspect crt n k8s.io c info 查看容器日志 docker logs crictl logs 无 查看容器资源使用情况 docker stats crictl stats 无 更新容器资源限制 docker update crictl update 无 停止容器 docker stop crictl stop 无 列出容器列表 docker ps crictl ps crt n k8s.io c ls 删除容器 docker rm crictl rm crt n k8s.io c del 启动 Pod 无 crictl start 无 运行 Pod 无 crictl runp 无 查看 Pod详情 无 crictl inspectp 无 停止 Pod 无 crictl stopp 无 列出 Pod列表 无 crictl pods 无 删除 Pod 无 crictl rmp 无
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        节点与节点池
        节点容器运行时说明
      • 容器磁盘读写限速
        操作步骤 1. 按需编辑应用 YAML,添加读写带宽或 IOPS 限制注解。 2. 应用 YAML 到集群: plaintext kubectl apply f .yaml 3. 部署后,Pod 启动时自动生效,无需额外操作。 4. 若需调整限速参数,修改注解后重新部署/滚动升级 Pod。 测试与验证流程 1. 部署带磁盘限速注解的测试 Pod(如上 YAML 示例)。 2. 进入 Pod 内部,运行 fio 工具进行磁盘性能测试: plaintext kubectl exec it n demo sh fio namefiotest ioenginelibaio direct1 filename/test/fiotest bs4k rwrandrw rwmixread50 size1G timebased runtime60 iodepth8 numjobs1 groupreporting 3. 观察 fio 输出,确认读写带宽与 IOPS 已被限制在注解设定范围内。 4. 可对比未限速和限速下的 fio 测试结果,验证限速效果。 常见问题与说明 注解配置无效? 请确认集群和节点已启用磁盘限速能力,且注解拼写正确。 查存储卷类型,部分类型(如 hostPath)受限速支持影响。 限速效果与预期不符? 实际带宽/IOPS 受节点硬件、存储类型等多因素影响,建议多次测试取均值。 Pod 启动报错或无效? 检查注解单位和格式,确保符合规范。 注意 建议仅对有实际需求的业务配置磁盘限速,避免资源浪费。 修改限速参数需滚动升级或重建 Pod 以生效。 测试时建议隔离环境,避免影响其他业务。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        调度
        在离线混部
        容器磁盘读写限速
      • 在离线混部概述
        本节介绍在离线混部概述。 在离线混部是在多维资源调度与管控方面的核心能力,包括节点资源超卖调度与 BE 离线应用 CPU 压制、高优先级应用 CPU 独占与隔离、容器磁盘读写限速、容器网络限速等,帮助用户在保障关键业务性能的同时,实现资源的高效利用。 适用场景 资源利用率低,需提升集群资源使用效率。 在线关键业务(高优先级)需要稳定的性能保障。 离线批量任务(低优先级)需充分利用空闲资源。 需要自动调度和压制离线应用,兼顾在线与离线业务。 需对磁盘 IO 或网络带宽进行限速,防止单一业务占用过多。 功能概览 节点资源超卖调度与 BE 离线应用 CPU 压制:允许节点超卖资源,并根据在线负载动态压制离线应用 CPU 使用,提升资源利用并保证在线应用性能。 高优先级应用 CPU 独占与隔离:为高优先级应用分配独占 CPU 核心,通过 cgroup 隔离其他应用,确保关键业务性能稳定。 容器磁盘读写限速:通过注解为容器配置磁盘带宽与 IOPS 限制,防止单一容器影响整体磁盘性能。 容器网络限速:通过注解为容器配置入站/出站带宽及优先级,保障关键流量的网络体验。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        调度
        在离线混部
        在离线混部概述
      • 指定ECS和ECI的资源分配
        配置示例二:normalNodePrefer调度 创建以下Selector,首先kubescheduler默认只会调度pod到标准节点;当标准节点资源不足时导致调度失败时,cubevkprofile会为带有app: nginxnormal Label的Pod添加VNode Toleration,再次由kubescheduler决定调度,同时添加effect中定义的Annotation和Label到Pod。 创建selector自定义资源对象,selectornormal.yaml的内容如下: plaintext apiVersion: eci.ctyun.cn/v1 kind: Selector metadata: name: testautovirtualnodenormal spec: objectLabels: matchLabels: app: nginxnormal effect: annotations: ccse.ctyun.cn/eciimagecache: "true" labels: ecischedulable: "true" policy: normalNodePrefer: {} 配置示例三:fair调度 创建以下Selector,cubevkprofile会为带有app: nginxfair Label的Pod添加VNode Toleration,由kubescheduler决定调度,同时添加effect中定义的Annotation和Label到Pod。 创建selector自定义资源对象,selectorfair.yaml的内容如下: plaintext apiVersion: eci.ctyun.cn/v1 kind: Selector metadata: name: testautovirtualnodefair spec: objectLabels: matchLabels: app: nginxfair effect: annotations: ccse.ctyun.cn/eciimagecache: "true" labels: ecischedulable: "true" policy: fair: {} 配置示例四:normalNodeOnly调度 不需创建selector,默认情况下kubescheduler只会调度pod到标准节点;也可以创建以下Selector,cubevkprofile会为带有app: nginxecs Label的Pod添加effect中定义的Annotation和Label,由kubescheduler决定调度。 创建selector自定义资源对象,selectorecs.yaml的内容如下: plaintext apiVersion: eci.ctyun.cn/v1 kind: Selector metadata: name: testnginxecs spec: objectLabels: matchLabels: app: nginxecs effect: annotations: ccse.ctyun.cn/imagecache: "true" labels: ccseecs: "true" policy: normalNodeOnly: {}
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        节点与节点池
        虚拟节点
        指定ECS和ECI的资源分配
      • 节点池概述
        状态 说明 已激活 成功创建节点池。 扩容中 扩容或添加节点池节点中。 缩容中 移除节点池节点中。 已删除(该状态用户不可见) 成功删除节点池。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        节点与节点池
        节点池概述
      • 升级节点池
        容器运行时升级 1. 置节点为不可调度 2. 执行节点排水操作 3. 运行时原地升级 4. 恢复节点调度
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        节点与节点池
        节点池
        升级节点池
      • 扩缩容节点池
        本节介绍了扩缩容节点池的用户指南。 云容器引擎集群通过调整节点池的期望节点数实现节点池扩缩容,将节点数目维持在期望数量。扩容节点池功能可以保证节点数量足够支撑业务运行,缩容可以节省成本。 前提条件 1、容器集群连通性正常。 2、已在容器集群中创建节点池。 通过控制台扩缩容节点池 1、 登录云容器引擎管理控制台,订购一个高可用集群。 2、 在左侧导航栏选择集群。 3、 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池。 4、 在节点池列表页面中,单击目标节点池更多选项的扩容/缩容。 5、扩容填写扩容节点数量。 6、缩容则跳转到节点池的节点列表中勾选所选缩容节点,点击移除。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        节点与节点池
        节点池
        扩缩容节点池
      • 节点异常问题排查
        解决方案 1、通过节点的监控查看磁盘增长曲线,确认异常出现时间点,检查节点上的进程是否存在占用磁盘空间过多的现象。 2、若有大量文件在磁盘上未清理,请清理文件。 3、根据自身业务情况,限制Pod的ephemeralstorage资源配置。 4、建议使用云存储产品,尽量避免使用HostPath数据卷。 5、节点磁盘扩容。 6、降低节点的负载。 节点PID不足NodePIDPressure 问题原因 通常是节点上的容器占用PID过多导致节点的PID不足。 问题现象 当节点的可用PID低于pid.available配置项时,则节点状态中NodePIDPressure为True,同时该节点上的容器被驱逐。 解决方案 1、执行如下命令,查看节点的最大PID数和节点当前的最大PID。 plaintext sysctl kernel.pidmax 查看最大PID数。 ps eLfawk '{print $2}' sort rn head n 1 查看当前的最大PID。 2、执行如下命令,查看占用PID最多的前5个进程。 plaintext ps elT awk '{print $4}' sort uniq c sort k1 g tail 5 3、根据进程号找到对应进程和所属的Pod,分析占用PID过多的原因并优化对应代码。 4、降低节点的负载。 5、如需重启节点,可尝试重启异常节点。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        节点与节点池
        节点异常问题排查
      • 监控节点
        本节介绍了监控节点的用户指南。 监控节点 云容器引擎集群集成了Prometheus监控服务,可查看对应节点实例的基本监控信息。本文介绍如何查看Kubernetes集群下节点的监控信息。 操作步骤 登录云容器引擎控制台在左侧导航栏选择 集群 。 在集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 节点管理 > 节点 。 在节点 页面,单击目标节点右侧左操作 列的 监控 。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        节点与节点池
        节点管理
        监控节点
      • 负载调度策略概述
        本节介绍了负载调度策略概述。 在Kubernetes体系内,Pod构成了工作负载调度的核心单元。当创建工作负载时,调度系统会自动为Pod分配合理的位置,例如将它们分散到资源充裕的节点上。尽管调度器的默认设置足以应对许多基础需求,但在特定场景下,用户可能希望对Pod的部署位置进行更为精细的控制。为此,Kubernetes提供了在工作负载定义中自定义调度策略的功能。具体示例如下: 将前端与后端应用部署在同一位置,有助于缩减延迟,因为它们可以共享物理资源。 某些应用需部署在特定节点上,以确保关键应用始终运行在最优硬件或配置上。 不同应用部署在不同节点上,有助于实现应用隔离,防止问题扩散。 Kubernetes中Pod调度策略 节点选择(nodeSelector):这是最简单的调度方式,通过节点标签选择目标节点,仅将Pod调度到拥有特定标签的节点。参考指引:设置负载的节点选择器(nodeSelector) 节点亲和性(nodeAffinity):节点亲和性不仅具备nodeSelector的功能,而且更为强大。它允许您根据节点标签使用标签选择器筛选亲和节点,支持必须满足和尽量满足的规则。参考指引:设置节点亲和调度(nodeAffinity) 工作负载亲和性/反亲和性(podAffinity/podAntiAffinity):根据工作负载标签,使用标签选择器筛选亲和/反亲和的Pod,并将新工作负载调度/不调度至目标Pod所在节点(或节点组),同样支持必须满足和尽量满足的规则。参考指引:设置工作负载亲和/反亲和调度(podAffinity/podAntiAffinity) 注意 1. 若同时指定nodeSelector和nodeAffinity,则两者条件均需满足,Pod才能被调度到候选节点。 2. 在大规模集群中,由于工作负载亲和性和反亲和性需要额外计算时间,可能会显著降低调度速度,因此不建议在包含数百个节点的集群中使用节点亲和性调度策略。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        工作负载(新版)
        配置负载调度策略
        负载调度策略概述
      • 设置节点亲和调度(nodeAffinity)
        本节介绍了 设置节点亲和调度(nodeAffinity)的用户指南。 在Kubernetes中,节点亲和性调度是一种强大的机制,它允许您根据节点的标签将工作负载精确地调度到具有特定属性(如GPU支持)的节点上。以下是如何配置和使用节点亲和性调度策略的简明指南。 配置节点亲和性调度策略 1. 标记节点:首先,确保您的GPU节点已被标记。在本例中,GPU节点被标记为gputrue。 2. 选择调度策略: 不配置:如果不设置节点亲和策略,Kubernetes将按照默认调度策略随机分配Pod。 指定节点调度:直接指定Pod部署的节点,适用于已知确切部署位置的情况。 指定节点池调度:指定Pod部署的节点池,适用于节点池管理策略。 自定义亲和策略:根据节点标签实现灵活调度。 3. 配置自定义亲和策略: 选择规则:在“自定义亲和策略”中,选择“必须满足”或“尽量满足”规则。 必须满足:硬约束,Pod只能调度到满足所有指定条件的节点上。 尽量满足:软约束,调度器会尝试调度到满足条件的节点,但即使不满足也会进行调度。 设置参数: 权重(仅“尽量满足”):取值1100,作为调度时的附加评分项。 标签名:需要匹配的节点标签。 操作符:六种匹配关系(In、NotIn、Exists、DoesNotExist、Gt、Lt),用于定义标签与值的匹配逻辑。 标签值:与标签名对应的值。 4. 添加策略:在调度策略配置中,点击“添加策略”并填写上述参数。 5. 快速选择(可选):通过“指定节点调度”或“指定节点池调度”快速选择目标节点或节点池,这些选项本质上也是基于标签实现的便捷操作。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        工作负载(新版)
        配置负载调度策略
        设置节点亲和调度(nodeAffinity)
      • 创建有状态负载(StatefulSet)
        实例间发现服务配置 Headless Service用于解决StatefulSet内Pod互相访问的问题,Headless Service给每个Pod提供固定的访问域名。具体请参见Headless Service。 服务配置 服务(Service)是用来解决Pod访问问题的。每个Service有一个固定IP地址,Service将访问流量转发给Pod,而且Service可以给这些Pod做负载均衡。您也可以在创建完工作负载之后再创建Service,Service的概念和使用方法请参见Service概述。 高级配置 设置升级策略、调度策略、标签与注解、DNS 配置、性能管理配置、网络配置等。单击右下角“创建工作负载”完成创建。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        工作负载(新版)
        创建有状态负载(StatefulSet)
      • Pod异常问题排查
        Pod状态为Evicted 问题现象:Pod的状态为Evicted。 问题原因:当节点的内存、磁盘空间、文件系统的inode和操作系统可分配的PID等资源中的一个或者多个达到特定的消耗水平,节点的kubelet进程就会主动地驱逐一到多个Pod,以回收节点资源。 解决方案: 1、执行以下命令,查看Pod的status.message字段,来确定Pod被驱逐的原因。 kubectl get pod o yaml n 2、执行以下命令,删除被驱逐的Pod。 kubectl get pods n grep Evicted awk '{print $1}' xargs kubectl delete pod n Pod OOM异常问题处理 问题现象:容器异常重启,并重启次数较多 问题原因:Pod使用超过其限制的内存 解决方案: 1、确定发生OOM异常的Pod所在的节点 2、登录Pod所在的Node,查看系统日志文件/var/log/message,搜索out of memory关键字,确认具体被OOM终止时间点和进程名称 3、根据Pod的内存监控数据,排查Pod内应用进程否存在内存泄漏。若应用进程存在内存泄漏导致需客户自行修正程序漏洞。若进程运行状态正常,则根据实际运行需要,适当增大Pod的内存限制
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        应用管理
        Pod异常问题排查
      • 搭建IPv4/IPv6双栈集群
        步骤 2 创建集群 登录CCE控制台,在右上角选择“创建集群”。 网络配置请按如下设置,其余配置可参考 新建集群 虚拟私有云:选择已开启IPV6的VPC。 所在子网:仅支持选择已开启了IPv6的子网。 启用IPV6:选择开启,开启后将支持通过IPv6地址段访问集群资源,包括节点和工作负载等。 Pod子网:仅支持选择已开启了IPv6的子网。 Service CIDR:容器网段要设置合理的掩码,掩码决定集群内可用节点数量。集群中容器网段掩码设置不合适,会导致集群实际可用的节点较少。 Service CIDRV6:该网段决定了支持 IPv6 地址的 Service 资源的上限,创建后不可修改,默认为fc00::/112。如需自定义该网段,需要满足以下要求:Service CIDRV6网段需属于fc00::/8网段内。IPv6地址前缀长度范围为112120,您可以通过调整前缀数值,调整地址个数,地址数最多可支持65536个。 步骤 3 购买和加入共享带宽 默认IPv6地址只具备私网通信能力,如果您需要通过IPv6地址访问Internet或被Internet上的IPv6客户端访问,您需要购买和绑定共享带宽。如您已有共享带宽,可以不用重新购买,直接将IPv6地址加入共享带宽即可。 在虚拟私有云 VPC中左侧导航栏,选择“弹性公网IP和带宽 > 共享带宽”。 在共享带宽列表页,单击操作列的“添加公网IP”。 将IPv6地址加入共享带宽。 结果验证:登录到ECS实例,ping一个公网上的IPv6服务,验证连通性。例如:ping6 ipv6.ctyun.cn。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        最佳实践
        集群
        搭建IPv4/IPv6双栈集群
      • 弹性伸缩概述
        组件名称 组件介绍 适用场景 cubeclusterautoscaler CCSE自研插件,节点水平伸缩组件,提供了调度、弹性优化、成本优化的功能。 全场景支持,适合在线业务、深度学习、大规模成本算力交付等。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        弹性伸缩
        弹性伸缩概述
      • Service诊断
        本节介绍了Service诊断对应的检查项以及修复方案。 Service诊断主要包括Service后端Ready Pod数量、异常Event等检查项。 注意 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。 Service诊断对应的检查项 根据集群配置,具体检查项可能稍有不同。实际结果请以诊断页面结果为准。 检查项名称 说明 修复方案 检查Service后端Ready Pod数量 检查Service后端Ready Pod数量。 检查业务Pod状态,保证Pod存在且处于Ready状态。 检查Service是否存在异常事件 检查集群中是否存在与该Service相关的异常事件。 请检查并处理Service异常事件中的描述信息,若无法处理,请提交工单。
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        运维管理
        故障诊断
        Service诊断
      • 节点诊断
        Node检查 检查项名称 说明 修复方案 检查节点是否存在 检查集群中是否存在该节点。 请检查Node在集群中是否存在。 检查节点状态是否Ready 检查节点在集群中的状态是否为Ready。 请登录到节点上执行systemctl status kubelet或journalctl exu kubelet查看节点上kubelet进程异常日志并尝试修复。 检查ECS实例是否存在 检查ECS实例是否存在。 请检查ECS实例状态。 检查ECS实例状态正常 检查ECS实例状态,实例状态异常时会影响Pod的正常运行。 请检查ECS实例状态。 检查节点状态是否不可调度 检查节点是否不可调度,不可调度的节点会影响Pod的正常运行。 节点不可调度,请检查节点调度设置。 检查节点Chronyd进程状态是否正常 检查节点Chronyd进程是否异常,该进程异常可能会影响系统时钟同步。 节点Chronyd进程异常,可能影响节点系统时间同步。请尝试通过命令systemctl restart chronyd重启节点Chronyd进程。 检查节点Ntpd进程状态是否正常 检查节点Ntpd进程是否异常,该进程异常时可能会影响系统时钟同步。 节点Ntpd进程异常,可能影响节点系统时间同步。请尝试通过命令systemctl restart ntpd重启节点Ntpd进程。 检查节点Containerd状态是否正常 检查节点Containerd服务的状态,该进程异常时可能会影响Pod的正常运行。 节点Containerd状态异常,请收集节点日志并提交工单处理。 检查节点Containerd镜像拉取是否正常 检查节点Containerd进程拉取pause镜像是否正常。 请检查节点网络及镜像配置。 检查节点Docker状态是否正常 检查节点Dockerd服务的状态,该进程异常时可能会影响Pod的正常运行。 节点Docker状态异常,请收集节点日志并提交工单处理。 检查节点Docker镜像拉取是否正常 检查节点Docker进程拉取pause镜像是否正常。 请检查节点网络及镜像配置。 检查节点Kubelet状态是否正常 检查节点Kubelet服务的状态,该进程可能会影响Pod的正常运行。 请检查节点kubelet日志。 检查节点Kubelet启动时间 检查节点Kubelet进程启动时间。 无 节点OS版本 检查节点操作系统版本。 无 节点内核版本 检查节点内核版本是否过低,内核版本过低可能造成系统异常。 请尝试更换节点升级内核。 节点Systemd版本 检查节点systemd版本。 无 节点runc版本 检查节点runc版本,runc版本过低可能造成系统异常。 无 节点系统时间 检查节点系统时间。 无 节点硬件时间 检查节点硬件时间。 无 节点硬件时间漂移 检查节点硬件时钟与系统时间是否一致,时间相差超过2分钟可能引起组件异常。 请尝试登录节点,通过命令hwclock systohc将节点系统时间同步到硬件时间。 检查节点内存交换区开启情况 检查节点内存交换区 (Memory Swap) 功能是否开启,K8s默认要求关闭内存交换区。 当前节点内存交换区 (Memory Swap) 功能不支持开启,请登录节点关闭该功能。 检查Conntrack表使用情况 检查节点Conntrack表是否满,Conntrack表满可能影响网络性能。 请检查nfconntrackbuckets和nfconntrackmax内核参数。 检查节点访问集群API Server是否正常 检查节点能否正常连接集群API Server,访问集群中其他K8s资源。 请检查集群相关配置。请检查集群相关配置。检查Master组件Pod是否异常。API Server使用的负载均衡ELB是否异常。 节点DNS服务地址 检查节点能否正常使用主机DNS服务,通过主机DNS服务解析集群外域名。 请检查主机DNS服务是否正常。更多信息,请参见DNS解析异常问题排查。 集群DNS服务ClusterIP 检查集群DNS服务的Cluster IP是否正常分配,集群DNS服务异常会造成集群功能异常,影响业务。 请检查CoreDNS Pod运行状态和运行日志。更多信息,请参见DNS解析异常问题排查。 检查节点访问集群DNS服务是否正常 检查节点能否正常访问集群kubedns服务的Cluster IP,通过集群的DNS服务解析集群内域名。 请检查CoreDNS Pod运行状态和运行日志。更多信息,请参见DNS解析异常问题排查。 检查节点访问集群DNS后端端点是否正常 检查节点能否正常访问集群CoreDNS的Pod IP地址,通过CoreDNS进行域名解析。 请检查节点能否正常访问CoreDNS的Pod IP地址。更多信息,请参见DNS解析异常问题排查。 检查节点内网IP是否存在 检查节点内网IP是否存在。 节点内网IP不存在,请尝试移除节点后重新导入,移除时需保留ECS。 检查节点能否访问公网 检查节点能否正常访问公网,无法访问公网可能影响公网镜像拉取。 请检查集群是否开启SNAT公网访问。 节点CPU使用率 检查节点CPU负载是否过高,CPU负载过高可能影响系统性能。 无 节点内存使用率 检查节点内存负载是否过高,内存过高可能影响系统性能。 无
        来自:
        帮助文档
        云容器引擎 专有版/托管版
        用户指南
        运维管理
        故障诊断
        节点诊断
      • 1
      • ...
      • 206
      • 207
      • 208
      • 209
      • 210
      • ...
      • 276
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      云聚517 · 好价翼起拼

      爆款云主机低至25.83元/年,参与拼团享更多优惠,拼成得额外优惠券

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      聚力AI赋能 天翼云大模型专项

      大模型特惠专区·Token Plan 轻享包低至9.9元起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      企业出海解决方案

      助力您的业务扬帆出海,通达全球!

      天翼云信创专区

      “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      产品推荐

      镜像服务 IMS

      弹性伸缩服务 AS

      弹性高性能计算 E-HPC

      训推服务

      AI Store

      Token服务

      应用托管

      科研助手

      一站式智算服务平台

      推荐文档

      域名实名认证

      启动即时会议

      分布式消息服务的功能

      公告

      配置目的端

      产品功能

      续订

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 息壤智算平台
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号