活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      云容器引擎

      云容器引擎

        • 产品动态
        • DeepSeek专题
        • DeepSeek专题导航
        • 图解:DeepSeek与公有云深度融合
        • 从基础设施到智能中枢:DeepSeek如何重塑公有云服务价值链
        • 高性能GPU云主机助力DeepSeek深度应用
        • 天翼云SD-WAN与DeepSeek超强联动,开启云上高效互联新时代
        • 实践指南:DeepSeek驱动高效能云生态
        • GPU云主机/弹性云主机:零基础搭建DeepSeek云端环境指南
        • GPU物理机:物理机搭建DeepSeek指南
        • SD-WAN跨境:SD-WAN助力DeepSeek模型定向加速
        • 智算容器:云容器引擎与DeepSeek融合实践
        • DeepSeek-R1蒸馏模型部署
        • 函数计算:天翼云函数计算与DeepSeek大模型
        • Q&A:典型问题解析与策略应对
        • 产品介绍
        • 产品定义
        • 产品优势
        • 版本对比
        • 产品功能
        • 功能特性
        • 应用场景
        • 基本概念
        • 使用限制
        • 智算版产品介绍
        • 智算版产品概述
        • 智算版计费说明
        • 智算版使用限制
        • 计费说明
        • 计费项及其计费方式
        • 价格
        • 快速入门
        • 创建一个应用集群
        • 订购集群
        • 查看集群
        • 退订集群
        • 创建一个无状态工作负载
        • 创建工作负载及服务
        • 查看容器实例事件
        • 查看容器实例日志
        • 查看容器实例监控
        • 使用容器镜像实例推送和拉取镜像
        • 前提条件
        • 获取实例地址、登录用户名和密码
        • 创建命名空间
        • 创建镜像仓库
        • 登录镜像仓库实例
        • 推送镜像
        • 拉取镜像
        • 使用容器镜像服务发布容器应用
        • 创建一个智算版容器集群
        • 订购智算版容器集群
        • 退订智算版容器集群
        • 用户指南
        • 高危操作及解决方案
        • 概览
        • 集群
        • 集群概述
        • 集群概览
        • 基本信息
        • 连接信息
        • 集群资源
        • Kubernetes版本发布记录
        • Kubernetes 1.31版本说明
        • Kubernetes 1.29版本说明
        • Kubernetes 1.27版本说明
        • Kubernetes 1.25版本说明
        • Kubernetes 1.23版本说明
        • 新建集群
        • 搭建IPv4/IPv6双栈集群
        • 集群安全组规划配置
        • iptables与IPVS如何选择
        • 创建高可用集群
        • 制作节点自定义镜像
        • 自定义集群APIServer证书SAN
        • 使用ServiceAccount Token卷投影
        • 连接集群
        • 删除集群
        • 升级集群
        • 节点与节点池
        • 节点容器运行时说明
        • 节点操作系统说明
        • 节点
        • 节点标签
        • 节点管理
        • 监控节点
        • 为节点扩容数据盘
        • 节点资源预留策略
        • 节点重置
        • 纳管节点
        • 节点异常问题排查
        • 虚拟节点
        • 指定ECS和ECI的资源分配
        • 节点池概述
        • 节点池
        • 升级节点池
        • 扩缩容节点池
        • 修复节点操作系统CVE漏洞
        • 自定义节点池kubelet配置
        • 节点池节点恢复
        • 节点池管理
        • 命名空间
        • 工作负载(新版)
        • 工作负载概述
        • 创建无状态负载(Deployment)
        • 创建有状态负载(StatefulSet)
        • 创建守护进程(DaemonSet)
        • 创建普通任务(Job)
        • 创建定时任务(CronJob)
        • 使用cube-volcano
        • 设置容器健康检查
        • 设置容器生命周期
        • 添加环境变量
        • 配置负载调度策略
        • 负载调度策略概述
        • 设置负载的节点选择器(nodeSelector)
        • 设置节点亲和调度(nodeAffinity)
        • 设置工作负载亲和/反亲和调度(podAffinity/podAntiAffinity)
        • 配置负载容忍策略
        • 负载网络配置
        • 工作负载(旧版)
        • 无状态
        • 有状态
        • 守护进程
        • 任务
        • 定时任务
        • 容器组
        • 自定义资源
        • 设置容器规格
        • 设置调度策略
        • 网络
        • 网络概述
        • 集群网络概述
        • Service
        • Ingress
        • 服务发现DNS
        • 容器网络插件
        • Calico网络插件
        • Cubecni网络插件
        • 使用Cubecni网络插件
        • 为Pod配独占网卡和固定IP及独立子网、安全组
        • Service管理
        • Service概述
        • LoadBalancer类型Service
        • 通过Annotation配置负载均衡类型的服务
        • Ingress管理
        • Ingress概述
        • NGINX Ingress Controller
        • IngressFAQ
        • Ingress常见错误信息及故障排查方法
        • 服务发现DNS
        • DNS概述
        • CoreDNS介绍
        • DNS策略
        • NodeLocal DNSCache加速
        • DNS FAQ
        • DNS最佳实践
        • POD联网使用案例
        • 配置管理
        • 配置项
        • 保密字典
        • 镜像拉取凭证
        • 应用管理
        • 应用发布
        • 应用灰度发布
        • 应用原地升级
        • Pod异常问题排查
        • 存储
        • 存储概述
        • cstor-csi插件
        • 云硬盘存储(CT-EVS)
        • 云硬盘概述
        • 使用云盘动态存储卷
        • 使用云盘静态存储卷
        • 快照与备份
        • 弹性文件存储(CT-SFS)
        • 弹性文件概述
        • 使用SFS动态存储卷
        • 使用SFS静态存储卷
        • 对象存储(CT-ZOS)
        • 对象存储概述
        • 使用ZOS动态存储卷
        • 使用ZOS静态存储卷
        • 本地存储
        • 本地存储概述
        • 使用HostPath存储卷
        • 使用LocalPV动态存储卷
        • 使用LocalPV静态存储卷
        • 使用LVM动态存储卷
        • 并行文件(CT-HPFS)
        • 并行文件概述
        • 使用HPFS动态存储卷
        • 使用HPFS静态存储卷
        • 海量文件
        • 海量文件概述
        • 使用OceanFS动态存储卷
        • 使用OceanFS静态存储卷
        • 存储FAQ-CSI
        • 插件
        • 插件概述
        • 插件市场
        • 插件实例
        • 插件FAQ
        • 安全管理
        • 角色
        • 子账号授权
        • RBAC授权
        • 容器安全策略
        • 运维管理
        • 监控
        • Pod 水平自动扩缩(HPA)
        • 黑盒监控
        • 基础资源监控
        • 集群拓扑监控
        • 指标告警
        • 日志
        • 开启APIServer审计日志
        • 事件中心
        • 集群巡检
        • 故障诊断
        • 故障诊断概述
        • Service诊断
        • 节点诊断
        • Pod诊断
        • Ingress诊断
        • 集群备份
        • ETCD备份
        • 集群备份
        • 集群定时备份
        • ETCD备份保存到对象存储
        • 模板市场
        • 模板市场
        • 模板实例
        • 弹性伸缩
        • 弹性伸缩概述
        • 工作负载弹性伸缩
        • 容器定时伸缩(CronHPA)
        • 容器水平伸缩(HPA)
        • 容器垂直伸缩(VPA)
        • 节点弹性伸缩
        • 节点伸缩原理
        • 启用节点自动伸缩
        • 节点弹性伸缩策略
        • 调度
        • 任务调度
        • 使用Gang scheduling
        • 使用CPU拓扑感知调度
        • 在离线混部
        • 在离线混部概述
        • 在离线混部插件安装与卸载
        • 在离线应用优先级管理
        • 超卖调度与离线应用CPU压制
        • 高优先级应用的CPU独占与隔离
        • 容器磁盘读写限速
        • 容器网络限速
        • 智算版集群
        • 节点管理
        • 智算控制台
        • 智算套件
        • 任务调度策略
        • AI负载调度
        • GPU共享调度
        • 装箱调度(Binpack)
        • Gang Scheduling调度
        • GPU资源监控面板
        • 配置AK/SK
        • 配置HPFS
        • 最佳实践
        • 客户案例
        • 某交投能源充电桩项目
        • 某量子云平台迁移项目
        • 迁移
        • 将K8S集群迁移到云容器引擎集群
        • 容灾
        • 应用高可用部署推荐
        • 集群高可靠推荐配置
        • 安全
        • 密钥Secret的安全使用
        • 集群
        • 集群规格推荐规划
        • 搭建IPv4/IPv6双栈集群
        • 通过kubectl连接多集群
        • 节点和节点池
        • 操作系统升级
        • 使用等保加固版本CTyunOS镜像
        • 节点池最佳实践
        • 存储
        • 存储卷
        • 容器化Web访问MySQL
        • 自定义存储资源对象
        • 网络
        • 集群网络地址段规划实践
        • 负载均衡
        • 会话保持
        • Ingress
        • 如何将Ingress服务暴露到公网
        • CoreDNS配置优化实践
        • Cubecni插件扩容Pod子网
        • 集群安全组规则配置
        • 容器内获取客户端源IP
        • ELB访问控制配置
        • 工作负载
        • 使用容器镜像服务发布应用
        • 发布
        • 服务发布
        • Service实现灰度发布和蓝绿发布
        • Nginx Ingress实现灰度发布和蓝绿发布
        • 容器
        • 合理分配容器资源
        • 获取容器Core Dump
        • 容器升级业务不中断
        • 容器与节点时区同步
        • 容器中域名解析的最佳实践
        • 使用hostAliases配置Pod /etc/hosts
        • x86和ARM镜像的混合部署
        • 通过特权容器配置内核参数
        • 权限
        • 集群命名空间RBAC授权
        • 通过配置kubeconfig文件实现集群权限精细化管理
        • 智算版集群
        • PyTorch 分布式训练任务
        • OpenSora 推理生成视频
        • API参考
        • API使用说明
        • 附录
        • 云容器引擎资源池
        • 如何获取接口URI中参数
        • password字段加密的方法
        • 节点规格和节点镜像
        • 常见问题
        • 计费
        • 订购
        • 节点
        • 集群
        • 工作负载
        • Pod异常问题排查
        • 启动实例失败时的重试机制是怎样的?
        • 存储管理
        • API&kubectl
        • 用户访问集群API Server的方式有哪些?
        • 如果不配置集群管理权限,是否可以使用kubectl命令呢?
        • 网络
        • Ingress相关问题
        • Service相关问题
        • 监控
        • 域名DNS
        • DNS解析异常问题排查
        • 其他
        • 节点NTP时间不同步怎么排查?
        • 节点已经绑定EIP,仍无法访问公网yum源进行安装更新?
        • 接入集群如何通过IPv6接入管控实例
        • 视频专区
        • 文档下载
        • 操作手册
        • 相关协议
        • 服务协议
        • 服务等级协议
          无相关产品

          本页目录

          帮助中心云容器引擎最佳实践容灾集群高可靠推荐配置
          集群高可靠推荐配置
          更新时间 2024-09-05 15:34:53
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2024-09-05 15:34:53
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本节介绍云容器引擎的最佳实践: 集群高可靠推荐配置。

          本文介绍构建高可用Kubernetes集群的推荐配置。

          类型 说明 高可靠配置建议
          集群控制节点 云容器引擎专有版有控制节点,可参考如下建议提升集群整体稳定性和可靠性。 集群Master节点多可用区 、集群网络选择服务转发模式、关注配额限制、监控控制节点指标
          集群工作节点 一般业务应用容器运行在Kubernetes集群工作节点,可参考如下建议实现控制节点的可扩展性及可修复性,及时关注核心组件的运行状态。 运行npd 配置DNS缓存、合理部署CoreDNS
          应用层面 为确保业务应用在流量高峰期不间断正常提供服务,可参考如下建议部署和配置应用,使应用具备弹性,并及时关注应用运行状态提前发现潜在问题。 运行多个实例 设置资源配额、应用多可用区部署、自动弹性伸缩、日志监控告警

          集群Master节点多可用区

          天翼云每个区域(Region)下有不同的可用区(Availability Zone,AZ)。可用区由一个或多个数据中心组成,具备独立的风火水电。区域的多个AZ间通过高速光纤相连,用户可基于此构建跨AZ高可用系统。

          创建集群时,部署模式选择多可用区部署,选择控制节点数为3或以上。多可用区部署模式下,控制节点会尽量分布在不同可用区以增强容灾能力 。

          集群高可靠1.png

          集群网络选择

          云容器引擎支持calico IPIP隧道网络和cubecni VPC网络。不同网络插件存在性能和功能差异,请根据业务需求合理选择,详见集群网络概述。

          • VPC选择:由于VPC间相互隔离,如果容器应用需访问RDS数据库等云服务实例,建议把这些云服务实例创建在同一VPC。对于已创建好处于不同VPC的云服务实例,可以通过对等连接配置两VPC互通。
          • 容器网段选择:容器网络网段大小直接影响可创建的节点和Pod数,所以不能设置太小。使用calico IPIP隧道网络的集群,如果容器网段掩码是/16,这有256*256个地址,默认情况下每个节点从容器网段一次分配的IP网段为24,此时可创建节点数为256。使用cubecni VPC网络的集群,容器网段为VPC子网,容器网段被节点共享,每个节点会预申请10个子网IP。容器网段大小与节点数无直接关系,但影响可创建Pod数。若子网掩码是/19,则有8192个子网地址供Pod使用。
          • 服务网段选择:服务网段决定集群中Service数上限,请根据实际需求配置Service网段。由于Service网段创建后无法修改,请勿设置过小的Service网段。

          详见集群网络地址段规划实践。

          服务转发模式

          Kubernetes集群的kube-proxy组件,负责Service与后端Pod间的负载均衡转发,该组件有两种服务转发模式:

          1. iptables:适用于Service数量较少或客户端会出现大量并发短连接场景。当Service数超过1000时,iptables模式可能引入部分网络延迟;
          2. IPVS:相比iptables模式,其吞吐更高速度更快,适用于集群规模较大或Service数较多的场景。

          关注配额限制

          云服务和集群资源均有配额限制,以防止意外过度使用资源。

          云服务配额:如弹性云服务器、云硬盘、虚拟私有云、弹性负载均衡、容器镜像服务等均有配额限制,当资源配额限制无法满足使用时,可以提交工单申请扩大配额;

          集群配额:租户可创建集群数量、单集群管理节点数量、单节点最大Pod数有配额限制,详见使用限制。

          监控控制节点指标

          采集控制节点指标可以深入了解控制节点性能并提前识别问题,运行状况不佳的控制节点会影响应用可靠性。

          云容器引擎通过ccse-monitor插件对接应用性能监控服务APM,以采集集群指标,默认会采集kube-apiserver、kube-controller、kube-scheduler、etcd等核心组件指标。

          可在云容器引擎控制台的“运维管理-监控”侧查看这些系统组件的监控面板。

          运行npd

          工作节点故障可能影响容器应用的正常运行。npd(node problem detector)是Kubernetes社区提供的用于检测集群节点异常的插件,借助npd可及时获取节点可能存在的异常并处理。npd插件支持自定义配置,如目标节点、触发阈值、检查周期等。

          配置DNS缓存

          CoreDNS默认不缓存DNS,当集群内DNS请求量增加时,CoreDNS可能出现如下问题:

          • 延迟增加:CoreDNS要处理更多请求,DNS查询可能变慢,从而影响业务性能;
          • 资源占用率增加:CoreDNS需要占用更多CPU和内存,以满足激增的DNS请求。

          可在集群中部署NodeLocal DNSCache插件以减少DNS请求延迟,提升服务发现的稳定性和性能。该插件在每个集群节点上运行DNS缓存代理,所有注入DNS配置的Pod优先使用该DNS缓存代理进行域名解析,以减少CoreDNS服务的压力,提高集群DNS性能。

          详见使用NodeLocal DNSCache。

          合理部署CoreDNS

          建议将集群的CoreDNS实例分布在不同可用区、不同节点上,避免单节点、单可用区故障。CoreDNS所在节点应避免CPU、内存高压力,否则会影响域名解析的QPS和响应延迟。

          运行多个实例

          若应用程序使用单个Pod承载,如果该Pod出现异常,则直接导致应用程序不可用。

          建议使用Deployment等工作负载来部署应用,对于Deployment类型的工作负载,当Pod被删除时,deployment控制器会自动新建一个相同配置的Pod,以确保指定数量的Pod始终运行。

          在创建Deployment类型工作负载时,建议指定实例数不小于2。如果一个实例发生故障,剩余的实例仍继续运行,若故障实例被删除,Kubernetes会自动创建另一个Pod。

          可以使用容器水平伸缩(HPA)结合节点自动伸缩根据工作负载需求自动进行伸缩。

          使用容器隔离进程

          容器可提供一定程度的隔离,每个容器有单独的根文件系统、网络栈和CPU/内存等资源限制,可一定程度避免不同容器进程间相互干扰及恶意进程攻击和数据泄露,提高应用程序的可靠性、安全性和可移植性。

          可在同一个Pod内创建多个容器,以便这些容器进程需协同工作。Pod内容器可以共享相同的网络栈、存储卷、IPC等资源。

          Pod的init容器在非init容器启动前运行,常用于完成一些初始化任务,比如配置环境变量、准备数据存储等等。

          Pod内多个容器共享同个Pod的生命周期,例如其中一个容器无法启动,则导致整个Pod无法进入Running状态。

          设置资源配额

          建议为所有工作负载配置资源请求/限制,资源请求影响Kubernetes调度,资源请求和限制则声明Pod的QoS。

          若资源请求/限制没有配置或配置不合理,则可能导致某个节点上调度了过多Pod或调度了较多消耗资源过多的Pod,使得节点负载太高,甚至产生节点OOM等异常,无法对外提供服务。

          为避免这类问题,建议为每个Pod均配置资源请求(Request)及限制(Limit)。Kubernetes在部署Pod时,会结合Pod的资源请求和限制找一个具有充足空闲资源的节点部署。

          Kubernetes采用静态资源调度方式,对于节点剩余资源的计算方式如下:

          节点剩余资源=节点总资源-已经分配出去的资源

          • 节点剩余资源并不是实际可使用的资源,若手动运行一个很耗资源的程序,Kubernetes并不能感知到。
          • 对于没有声明resources的Pod,当该Pod被调度到某个节点后,Kubernetes并不会在对应节点上扣掉该Pod使用的资源,这可能导致节点上调度太多Pod,所以建议为所有Pod配置resources。

          应用多可用区部署

          建议在多个不同可用区的节点上运行Pod,避免应用受到单可用区故障影响。

          订购集群时,部署模式选择多可用区部署:

          集群高可靠2.png

          部署应用时,可为Pod设置反亲和性规则,实现跨多个可用区多个节点调度Pod,详情请参见应用高可用部署。

          设置容器健康检查

          Pod内容器若异常退出,Kubernetes会自动重启容器,能避免部分Pod容器异常导致的服务中断。但Pod处于Running状态并不代表Pod能正常提供服务,例如Pod内进程可能访问RDB实例失败且没退出,此时Pod状态依然是Running。建议为Pod配置存活探针(Liveness Probe),探测Pod是否存活。如果存活探针失败超过阈值,Kubernetes会重启Pod。

          • 就绪探针(Readiness Probe)用于探测Pod是否可以正常对外提供服务。应用一般在启动过程中需要做一些初始化动作才能对外提供服务,为Pod添加过就绪探针后,当就绪探针检测成功时该Pod才会加入Service。当Pod的就绪探针失败时,Pod会从对应Service移除,避免Service流量继续转到异常Pod。
          • 启动探针(Startup Probe)用于探测应用容器是否启动成功。若配置了启动探针,启动探针成功后,Kubernetes才会进行存活探针和就绪探针检查。建议对于启动慢的容器配置启动探针,避免这类Pod在启动运行之前因存活探针失败就被终止。

          工作负载配置探针的YAML示例如下:

          apiVersion: v1
          kind: Pod
          metadata:
            labels:
              app: probe-demo
            name: probe-demo
          spec:
            containers:
            - name: probe-demo
              image: nginx:alpine
              args:
              - /server
              livenessProbe:
                httpGet:
                  path: /healthz
                  port: 80
                initialDelaySeconds: 10
                periodSeconds: 10
              readinessProbe:
                exec:
                  command:
                    - cat
                    - /tmp/healthy
                initialDelaySeconds: 10
                periodSeconds: 10
              startupProbe:
                httpGet:
                  path: /healthz
                  port: 80
                failureThreshold: 3
                periodSeconds: 10
          

          自动弹性伸缩

          云容器引擎的自动弹性伸缩功能提供自动调整工作负载实例数和集群节点数的能力,实现在业务高峰时快速扩容,在低谷时进行缩容,以节约资源与成本。

          可配置如下两类弹性伸缩:

          • 工作负载伸缩:调整容器的资源申请/限制值可实现工作负载纵向伸缩,但这种调整会使得关联Pod均重建,且存在瓶颈,例如节点剩余可用资源。对于无状态应用,可通过调整Deployment的实例数实现水平伸缩,分摊每个应用实例的压力,详见容器水平伸缩。
          • 节点伸缩:随着Pod数不断增加,节点剩余资源会成为瓶颈,导致无法继续启动新建的Pod。为解决节点资源不足问题,可以基于节点资源使用率伸缩节点数,详见节点自动伸缩。

          日志监控告警

          • 日志
            • Kubernetes组件日志:kube-apiserver、kube-controller-manager、kube-scheduler、kube-proxy和kubelet等系统组件日志,可登录集群使用kubectl命令或在云容器引擎控制台查看,详见查看容器实例日志 。
            • 应用日志:通过安装ctg-log-operator插件,云容器引擎可以对接云日志服务进行容器日志采集、存储、检索等,详见集群日志。
          • 监控
            • Kubernetes组件监控:系统组件指标监控有助于发现问题或风险。
            • 应用指标:除了采集Kubernetes组件指标外,应用容器也可上报符合规范的自定义指标,实现应用程序的可观测性,使用方式详见集群监控。
          • 告警
            基于监控组件采集的指标,可以配置告警规则风险预警或问题告警,详见应用性能监控APM设置告警规则。
          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  应用高可用部署推荐
          下一篇 :  安全
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明