微消息队列MQTT版_微消息队列MQTT版文档介绍内容-天翼云

IngressFAQ
5. Ingress 控制器和服务不同步，如何解决？如果你发现 Ingress 控制器和服务不同步，可能是由多种原因导致的。以下是一些可能的问题及其相应的解决方案。 Ingress 控制器没有正确配置或安装：确保你正确安装并配置了 Ingress 控制器。检查 Ingress 控制器的 Pods 的状态和日志，以确认它们是否正在正常运行。如果存在任何错误，根据错误信息进行故障排查。 Ingress 规则没有正确配置：检查你的 Ingress 资源的配置，确保你已正确定义了路由规则，并且这些规则指向了正确的服务和端口。服务或 Pods 不可用：Ingress 控制器将流量路由到服务，然后由服务路由到 Pods。如果服务或 Pods 不可用，可能会导致 Ingress 控制器和服务不同步。检查服务和 Pods 的状态，确保它们正在正常运行。 Kubernetes API 服务器不可用：Ingress 控制器通过 Kubernetes API 服务器获取服务的信息。如果 API 服务器不可用，可能会导致 Ingress 控制器和服务不同步。检查 API 服务器的状态和日志，以确认它是否正在正常运行。网络问题：如果网络配置不正确，可能会导致 Ingress 控制器无法与服务或 Pods 通信。这可能是由于网络策略、防火墙规则或其他网络配置问题导致的。进行网络故障排查，以确认网络配置是否正确。解决这些问题可能需要查看和理解 Ingress 控制器、服务和 Pods 的日志，以及可能需要进行网络和 Kubernetes API 服务器的故障排查。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
网络
Ingress管理
IngressFAQ
Q&A：典型问题解析与策略应对
天翼云提供了底层资源，DeepSeek模型还是要客户自己部署的吗？天翼云提供了预置DeepSeek模型的镜像，开机即用。 DeepSeek模型、Ollama工具下载慢，我该怎么办？目前使用天翼云的镜像源，可加快访问速度。如果想使用其他模型，也可以自定义部署。昇腾版本和英伟达版本有啥区别？昇腾和英伟达版本主要区别在于硬件设备（如A100和昇腾），具体的参数层面区别难以量化。开箱即用的镜像，能否更换其他参数规模的模型？可以的，GPU云主机提供了预置DeepSeek R1:7B 和DeepSeek R1:70B 两款模型镜像，提供了DeepSeek LLamaFactory模型微调镜像，并配备完整的ollama、openWebUI工具，用户可根据需要进行自定义部署。模型部署过程中发现云盘的容量不够怎么办？根据云硬盘扩容概述对已有云盘进行扩容或购买数据盘进行挂载。天翼云公有云哪些资源池有DeepSeek预置镜像？目前DeepSeek R1:7B Ubuntu云主机镜像，已上线至福州25、郑州5、长沙42、上海36、华北2、华南2、西南1、华东1，其余资源池按需加载；裸金属镜像DeepSeek R1:7B Ubuntu已上线上海15资源池，其余资源池按需加载。

来自：
帮助文档
云容器引擎专有版/托管版
DeepSeek专题
Q&A：典型问题解析与策略应对
函数计算：天翼云函数计算与DeepSeek大模型
函数计算：天翼云函数计算与DeepSeek大模型

来自：
帮助文档
云容器引擎专有版/托管版
DeepSeek专题
实践指南：DeepSeek驱动高效能云生态
函数计算：天翼云函数计算与DeepSeek大模型
通过自定义域名访问集群
本节介绍了通过自定义域名访问集群的用户指南。前提条件已经创建了一个天翼云账号，并且有一个已经创建好的云容器引擎集群。集群中已经部署了应用服务，并且可以通过Cluster IP或NodePort进行访问。已经拥有一个域名，并可以对其进行DNS配置。创建Ingress Controller 登录云容器引擎控制台，单击集群名称进入集群。在左侧导航栏中找到网络，下拉找到路由，点击路由，点击左上角创建路由。创建Ingress Controller。安装完成后，可以使用kubectl命令查看Ingress Controller的服务： plaintext kubectl get services n ingressnginx 确保ingressnginxcontroller服务已经创建并在运行。创建Ingress资源编写Ingress资源配置文件创建一个新的YAML文件，例如myingress.yaml，内容如下： plaintext apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: myingress namespace: default spec: rules: host: http: paths: path: / pathType: Prefix backend: service: name: port: number: 替换为您的自定义域名，为您的Kubernetes服务名称，为服务的端口号。应用Ingress资源使用kubectl应用刚才创建的Ingress资源文件： plaintext kubectl apply f myingress.yaml 验证Ingress资源是否已创建： plaintext kubectl get ingress 配置自定义域名的DNS记录获取Ingress Controller的外部IP 使用以下命令获取Ingress Controller的外部IP： plaintext kubectl get services n ingressnginx 记录ingressnginxcontroller服务的EXTERNALIP。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
集群
访问集群
通过自定义域名访问集群
设置资源配额与限制
资源限制资源类型说明默认资源限制未指定资源限制时，每个容器的CPU、内存默认限制值默认资源申请未指定资源申请时，每个容器的CPU、内存默认申请值最小资源限制容器的最小资源请求值最大资源限制容器的最大资源限制值注意只填写最小资源限制或最大资源限制的情况下，Kubernetes会自动设置默认资源限制和默认资源申请只填写最小资源限制时，Kubernetes会根据该值自动设置默认资源申请有填写最大资源限制时，Kubernetes会根据该值自动设置默认资源限制、默认资源申请

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
命名空间
设置资源配额与限制
创建高可用集群
本文介绍了创建高可用集群的用户指南。天翼云云容器引擎具备多可用区（AZ）的能力。容器集群的控制节点与工作节点可以分别设置是否使用多可用区。设置方法 1.创建高可用集群的方式与普通集群基本一致，仅在master配置与节点池配置处有区别。创建集群的其它操作可参考快速入门 > 创建一个应用集群 > 订购集群 2.在master配置>已选规格>自定义各可用区的master数量，建议master分布到多可用区达到高可用目的。见下图 3.在节点池配置>已选规格>自定义各可用区的工作节点数量，建议将节点池内的节点部署在多个可用区。见下图

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
集群
新建集群
创建高可用集群
网络策略
配置名示例值选择器 namespaceSelector 命名空间 demo 标签 kubernetes.io/metadata.name: demo

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
网络
容器网络插件
Cubecni网络插件
网络策略
集群安全组规划配置
方向端口协议默认源/目的地址说明优先级（取值越小优先级越高）是否支持修改入方向规则全部 TCP + UDP 198.19.128.0/20 VPCE内网地址段 99 不可修改入方向规则全部 TCP + UDP 100.64.0.0/10 内网DNS、云存储等云产品网段 99 不可修改入方向规则全部 TCP + UDP VPC网段节点之间互访 99 不可修改入方向规则全部 TCP + UDP VPC IPv6网段节点之间IPv6互访 99 不可修改入方向规则全部 TCP + UDP 100::/16 云产品IPv6网段 99 不可修改出方向规则全部 TCP 169.254.169.254/32 主机元数据服务地址 99 不可修改出方向规则全部 TCP + UDP 100.64.0.0/10 内网DNS、云存储等云产品网段 99 不可修改出方向规则全部 TCP + UDP VPC网段节点之间互访 99 不可修改出方向规则全部 TCP + UDP VPC IPv6网段节点之间IPv6互访 99 不可修改出方向规则全部 TCP + UDP 100::/16 云产品IPv6网段 99 不可修改出方向规则全部 TCP + UDP 0.0.0.0/0 默认全部放通，不建议修改 100 可修改出方向规则全部 TCP + UDP 0:0:0:0:0:0:0:0/0 默认全部放通，不建议修改 100 可修改

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
集群
新建集群
集群安全组规划配置
节点维度的网络配置
参数名说明 action 值固定为override，默认为override，即子网/安全组配置会覆盖cubecniconfig的配置 iaassubnets 值为VPC子网ID列表。若配置多个子网，优先使用可用IP最多的子网；如无需修改，则无需配置iaassubnets，或值配置为null securitygroups 值为安全组ID列表。用于配置新建的Pod共享ENI，最多可配置5个；若无需修改，则无需配置securitygroups，或值配置为null

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
网络
容器网络插件
Cubecni网络插件
节点维度的网络配置
为Pod配独占网卡和固定IP及独立子网、安全组
kubectl get eni e94e1cad753d4da6a3b254eb10a3 oyaml apiVersion: network.ccse.ctyun.cn/v1 kind: ElasticNetworkInterface metadata: name: e94e1cad753d4da6a3b2xxxx spec: idleTimeout: 36000 mode: binding nodeName: ccseagentjgzxxxxx podName: demo768fcfc9b8xxxx podNamespace: default resID: 64c2a49d2b01496bxxxxxxx securityGroupIDs: sg342bxxxxx subnetID: subnete5vaxxxxx status: eniInfo: instanceID: affe3664xxxxd1e7607ced186dxxxxx instanceType: "3" mac: fa:16:3e:5f:xx:xx mainIPv4: 192.168.x.x name: ccsecnixxxxa2bf4b6bxxxx networkInterfaceID: portqkqksxxxx securityGroupIDs: sg342bxxxx subnetID: subnete5vaexxxx subnetIPv4CIDR: 192.168.x.x/19 subnetIPv4Gateway: 192.168.x.x subnetIPv6Gateway: fe80::f816:3eff:xxxx:xxxx vpcID: vpcmpawzxxxxx message: resource prepare success nodeName: ccseagentjgzrxxxxx phase: Bound podLastSeen: "2025xxxxT08:46:24Z" Pod创建后为什么没有使用EniCfg中的网络配置？ 1. 请确保EniCfg资源状态为Ready； 2. 请确保Pod标签和EniCfg中的podSelector标签匹配，且（或）Pod所在命名空间的标签与EniCfg中的namespaceSelector标签匹配； 3. 请检查EniCfg的spec.type值是否正确，值binding表示该EniCfg只作用于新建的使用独占ENI的Pod，值fixed表示该EniCfg仅作用于新建的使用固定ENI的有状态集。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
网络
容器网络插件
Cubecni网络插件
为Pod配独占网卡和固定IP及独立子网、安全组
高危操作及解决方案
本节介绍了云容器引擎的高危操作及解决方案。用户在使用容器集群进行业务的部署过程中，可能会执行一些潜在风险较高的操作，触发不同程度的业务故障。为更好地帮助用户预估和避免潜在的操作风险，本文从集群节点层面展示一些高危操作可能导致的后果，并提供相应的解决方案，以防止误操作。节点类型高危操作后果解决方案 master节点节点到期或销毁该master节点不可用若只有一个master节点，则集群不可用不可恢复 master节点自行改动master或etcd版本可能引发集群不可用 master或etcd恢复原始版本 master节点删除或者格式化/etc/kubernetes或/data/containerd等核心数据目录该master节点不可用若只有一个master节点，则集群不可用不可恢复 master节点重装操作系统 master组件被删除，不可用若只有一个master节点，则集群不可用不可恢复 master节点删除或者卸载关键内核模块或内核文件该master节点不可用若只有一个master节点，则集群不可用不可恢复 master节点修改操作系统配置可能导致该master节点不可用若只有一个master节点，则集群不可用请自行还原配置 master节点自行修改核心组件参数可能导致该master节点不可用核心组件参数恢复配置 master节点自行修改/etc/resolv.conf等配置文件原始内容可能引发网络不通或拉取镜像失败请自行还原配置文件原始内容 master节点自行更换master或者etcd证书可能引发集群不可用不可恢复 master节点更改节点IP master节点不可用修改回原IP master节点业务应用占用资源过高核心组件或者主机节点不可用请自行进行资源清理并进行合理资源配额限制 master节点修改节点的主机名称 master节点不可用修改回原主机名称 node节点节点删除或到期该节点不可用不可恢复 node节点重装操作系统该节点不可用不可恢复 node节点删除或者卸载关键内核模块或内核文件该节点不可用不可恢复 node节点修改操作系统配置可能导致该节点不可用尝试还原配置 node节点自行修改核心组件参数可能导致该节点不可用核心组件参数恢复配置 node节点删除或修改关键数据目录、删除数据盘该节点不可用不可恢复 node节点修改节点内目录权限或者容器目录权限权限异常不建议修改，请自行恢复 node节点更改节点IP 该节点不可用修改回原IP node节点业务应用占用资源过高核心组件或者主机节点不可用请自行进行资源清理并进行合理资源配额限制 node节点修改节点的主机名称该节点不可用修改回原主机名称容器集群开通节点时会创建以下互通的不可见安全组规则，请勿轻易更改安全组。入方向/出方向规则授权策略 IP版本优先级协议网段端口范围解决方案入方向允许 IPV4 99 Any vpc网段全部端口不能更改该安全组规则入方向允许 IPV6 99 Any vpc网段全部端口不能更改该安全组规则入方向允许 IPV6 99 Any 100::/16 全部端口不能更改该安全组规则出方向允许 IPV4 99 Any 所有网段 0.0.0.0/0 全部端口不能更改该安全组规则出方向允许 IPV6 99 Any 所有网段 0:0:0:0:0:0:0:0/0 全部端口不能更改该安全组规则

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
高危操作及解决方案
启用节点自动伸缩
配置优化根据实际需求，可以调整Cluster Autoscaler的配置以优化节点伸缩性能。 1.调整扩容和缩容的延迟时间 scaleDownDelayAfterAdd：新增节点后等待的时间。 scaleDownUnneededTime：节点在被认为不需要前等待的时间。 2.调整资源利用率阈值： scaleDownUtilizationThreshold：低于该阈值的节点将被移除。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
弹性伸缩
节点弹性伸缩
启用节点自动伸缩
节点弹性伸缩策略
多个伸缩组在弹性伸缩的时候是如何被选择的？在Pod处在无法调度时，会触发弹性伸缩组件的模拟调度逻辑，会根据伸缩组配置的标签和污点以及实例规格等信息进行判断。当配置的伸缩组可以模拟调度Pod的时候，就会被选择进行节点弹出。当同时有多个伸缩组满足模拟调度条件的时候，根据配置的策略选择。默认采用的是最少浪费原则，即根据模拟弹出后节点上剩余的资源最小为原则进行抉择。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
弹性伸缩
节点弹性伸缩
节点弹性伸缩策略
节点伸缩原理
本节介绍了节点伸缩原理。工作原理在Kubernetes中，节点自动伸缩的工作原理与传统意义上基于使用率阈值的模型有所差别，这也是很多开发者在从传统的IDC或者其他编排系统迁移到Kubernetes后最难理解的地方。传统的弹性伸缩模型是基于使用率的，例如：一个集群中有3个节点，当集群中的节点CPU、内存使用率超过特定的阈值时，此时弹出新的节点。但当深入思考时会发现以下几个问题：阈值是如何选择与判断的？在一个集群中，部分热点节点的利用率会较高，而另外一个节点的利用率会很低。如果选择平均利用率的话可能会造成弹性伸缩的不及时。如果使用最低的节点的利用率，那么也会造成弹出资源的浪费。弹出实例后是如何缓解压力的？在Kubernetes中，应用是以Pod为最小单元，部署在集群的不同节点上的。当一个Pod资源利用率较高的时候，即便此时所在的节点或者集群的总量触发了弹性扩容，但是该应用的Pod数目，以及Pod对应的Limit没有任何变换，那么负载的压力是无法转移到新扩容出的节点上的。如何判断以及执行实例的缩容？如果基于资源利用率的方式判断节点是否缩容，那么很有可能出现，Request很大，但是Usage很小的Pod被驱逐，当集群中这种类型的Pod较多时，会导致集群的调度资源被占满，部分Pod无法调度。 Kubernetes节点伸缩是怎么解决以上问题的呢？Kubernetes是通过调度与资源解耦的两层弹性模型来解决的。基于资源的使用率来触发应用副本的变化，也就是调度单元的变化。而当集群的调度水位达到100%的时候会触发资源层的弹性扩容，当资源弹出后，无法调度的单元会自动调度到新弹出的节点上，从而降低整个应用的负载状况。以下介绍Kubernetes弹性伸缩的技术细节：如何判断节点的弹出？ clusterautoscaler是通过对处在Pending的Pod进行监听而触发的。当Pod处在Pending的原因是调度资源不足的时候，会触发clusterautoscaler的模拟调度，模拟调度器会计算在配置的伸缩组中哪个伸缩组弹出节点后可以调度这些Pending的Pod。如果有伸缩组可以满足，那么就弹出相应的节点。模拟调度就是将一个伸缩组当成一个抽象的Node，伸缩组中配置的机型规格对应会成为Node的CPU/内存/GPU的容量，然后设置伸缩组上面的Label、Taint，也就是Node的Label与Taint。模拟调度器会在调度模拟的时候，将该抽象的Node纳入调度参考。如果Pending的Pod可以调度到抽象的Node，那么就会计算所需的Node的数目，驱动伸缩组弹出节点。如何判断节点的缩容？首先只有弹性伸缩弹出的节点会被缩容，静态的节点是无法被clusterautoscaler接管的。缩容的判断是通过每个节点单独判断的。当任意一个节点的调度利用率低于所设置的调度阈值时，会触发节点的缩容判断。此时clusterautoscaler会尝试模拟驱逐节点上面的负载，判断当前节点是否可以排水彻底。有些特殊的Pod（kubesystem命名空间的非DaemonSet Pod、PDB控制的Pod等），则会跳过该节点而选择其他的候选节点。当节点发生驱逐时，会先进行排水，将节点上的Pod驱逐到其他的节点，然后再下线该节点。多个分组之间如何选择？不同分组之间，实际上相当于不同的虚拟的Node之间的选择，和调度策略一样，这里也存在一个打分的机制。首先符合调度策略的Node会先过滤出来，在符合调度策略的Node中，会根据affinity等亲和性的策略进行选择。如果上述的策略都不存在，默认情况下clusterautoscaler会通过leastwaste的策略来进行抉择。leastwaste的策略的核心就是模拟弹出节点后，剩余的资源最少。此外，有一个特别的场景，当有一个GPU的伸缩组和CPU的伸缩组同时可以弹出生效时，默认CPU会优先于GPU弹出。如何提高弹性伸缩的成功率？弹性伸缩的成功率主要取决如下两个因素： 1、调度策略是否满足首先在配置好伸缩组后，开发者需要先确认下该伸缩组可以承载的Pod的调度策略范围。如果无法直接判断，最简单的方式是通过nodeSelector直接选择伸缩组的Label进行预弹模拟。 2、资源配置是否充分当模拟调度通过后，会选择伸缩组进行弹出，但是伸缩组中配置的ECS规格是否有库存会直接决定是否可以成功弹出实例。因此配置多个节点池选择不同的规格可以大大提高弹出成功率。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
弹性伸缩
节点弹性伸缩
节点伸缩原理
Kubernetes 1.31版本说明
本文介绍了:云容器引擎发布Kubernetes 1.31版本说明。社区 Kubernetes 版本主要变更 Kubernetes 1.31 版本Changelog 1. StatefulSet 起始序号（GA），允许用户自定义 Pod 的起始序号（默认从 0 开始），例如设置为 100，适用于需要固定编号或特定顺序的应用场景（如分布式数据库）。 2. 弹性索引 Job（GA），支持在索引 Job 创建后动态调整 .spec.completions 和 .spec.parallelism 字段，实现任务弹性伸缩，无需重新创建 Job。 3. Pod 失效策略（GA），可根据 Pod 失效原因（如被抢占、节点删除、kubelet 终止等）分别配置处理逻辑（重试或忽略），避免不必要的 Pod 重启，降低运行成本。 4. Pod 干扰状况（GA），在 Pod 的 Condition 中新增 DisruptionTarget 类型，明确标记 Pod 失效原因（如被高优先级 Pod 抢占），结合 Job 的失效策略实现更精细的任务管理。 5. Job成功策略（Beta），JobSuccessPolicy特性进阶至Beta。该特性允许用户基于成功的Pod个数为Job配置成功策略。 6. 持久卷回收策略（Beta），确保 PV 的回收策略（如 Delete）在 PVC 删除后仍被强制执行，通过添加 Finalizer 防止存储资源泄漏，即使 PV 和 PVC 的删除顺序混乱也能保证一致性。 7. ServiceAccountTokenNodeBinding（Beta），创建绑定到特定节点的 Token，包含节点信息声明，并在 Token 使用时验证节点存在性。若节点被删除，Token 自动失效，降低凭证泄露风险。 8. 容器重启优化，当 Pod 配置变更但镜像未更新时，kubelet 不再强制重启容器，避免因非关键配置更新导致的不必要中断。 9. OCI 镜像卷（Alpha），允许将 OCI 镜像直接挂载为卷，简化 AI/ML 工作负载中模型和数据的访问，例如通过更换镜像快速更新模型权重。更多信息请参考：Kubernetes 1.31 Changelog

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
集群
集群概述
Kubernetes版本发布记录
Kubernetes 1.31版本说明
节点容器运行时说明
本节介绍了:节点容器运行时的用户指南。容器运行时介绍容器运行时是负责管理节点上容器的生命周期。Kubernetes通过 Kubelet 的 Container Runtime Interface（CRI）与容器运行时交互，控制容器的创建与管理。基于 Containerd性能更好、更稳定、占用资源更少等优点，云容器引擎选择 Containerd作为容器运行时的解决方案。云容器引擎早期在 Kubernetes v1.23上还支持选择 Docker，当前则需提工单申请，未来会移除对 Docker的支持，强烈建议您使用 Containerd或迁移到 Containerd。云容器引擎选择 Containerd作为容器运行时的解决方案，对比 Docker，Containerd的优点如下： 1. 调用链更短 Containerd： Kubelet > CRI plugin（在 Containerd中）> Containerd Docker： K8s v1.23及以下版本：Kubelet > Dockershim（在 Kubelet中）> Docker > Containerd K8s v1.24及以上版本：Kubelet > cridockerd > Docker > Containerd 2. CPU和内存占用更少 3. 稳定性和安全性更好 4. Pod 启动更快 Containerd 和 Docker的常用命令对比 Containerd 支持两种命令行工具：ctr和 crictl。其中，ctr是 Containerd 的客户端工具，crictl是兼容 CRI 的容器运行时的命令行工具。crictl 可以用来检查和调试 Kubernetes节点上容器运行时和应用程序。操作 Docker crictl ctr 上传镜像 docker push crictl push ctr n k8s.io i push 拉取镜像 docker pull crictl pull ctr n k8s.io i pull 查看镜像详情 docker inspect crictl inspecti 无列出本地镜像列表 docker images crictl images ctr n k8s.io i ls 删除本地镜像 docker rmi crictl rmi ctr n k8s.io i rm 创建容器 docker create crictl create crt n k8s.io c create 启动容器 docker start crictl start crt n k8s.io run 连接容器 docker attach crictl attach 无进入容器 docker exec crictl exec 无查看容器详情 docker inspect crictl inspect crt n k8s.io c info 查看容器日志 docker logs crictl logs 无查看容器资源使用情况 docker stats crictl stats 无更新容器资源限制 docker update crictl update 无停止容器 docker stop crictl stop 无列出容器列表 docker ps crictl ps crt n k8s.io c ls 删除容器 docker rm crictl rm crt n k8s.io c del 启动 Pod 无 crictl start 无运行 Pod 无 crictl runp 无查看 Pod详情无 crictl inspectp 无停止 Pod 无 crictl stopp 无列出 Pod列表无 crictl pods 无删除 Pod 无 crictl rmp 无

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
节点与节点池
节点容器运行时说明
容器磁盘读写限速
操作步骤 1. 按需编辑应用 YAML，添加读写带宽或 IOPS 限制注解。 2. 应用 YAML 到集群： plaintext kubectl apply f .yaml 3. 部署后，Pod 启动时自动生效，无需额外操作。 4. 若需调整限速参数，修改注解后重新部署/滚动升级 Pod。测试与验证流程 1. 部署带磁盘限速注解的测试 Pod（如上 YAML 示例）。 2. 进入 Pod 内部，运行 fio 工具进行磁盘性能测试： plaintext kubectl exec it n demo sh fio namefiotest ioenginelibaio direct1 filename/test/fiotest bs4k rwrandrw rwmixread50 size1G timebased runtime60 iodepth8 numjobs1 groupreporting 3. 观察 fio 输出，确认读写带宽与 IOPS 已被限制在注解设定范围内。 4. 可对比未限速和限速下的 fio 测试结果，验证限速效果。常见问题与说明注解配置无效？请确认集群和节点已启用磁盘限速能力，且注解拼写正确。查存储卷类型，部分类型（如 hostPath）受限速支持影响。限速效果与预期不符？实际带宽/IOPS 受节点硬件、存储类型等多因素影响，建议多次测试取均值。 Pod 启动报错或无效？检查注解单位和格式，确保符合规范。注意建议仅对有实际需求的业务配置磁盘限速，避免资源浪费。修改限速参数需滚动升级或重建 Pod 以生效。测试时建议隔离环境，避免影响其他业务。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
调度
在离线混部
容器磁盘读写限速
在离线混部概述
本节介绍在离线混部概述。在离线混部是在多维资源调度与管控方面的核心能力，包括节点资源超卖调度与 BE 离线应用 CPU 压制、高优先级应用 CPU 独占与隔离、容器磁盘读写限速、容器网络限速等，帮助用户在保障关键业务性能的同时，实现资源的高效利用。适用场景资源利用率低，需提升集群资源使用效率。在线关键业务（高优先级）需要稳定的性能保障。离线批量任务（低优先级）需充分利用空闲资源。需要自动调度和压制离线应用，兼顾在线与离线业务。需对磁盘 IO 或网络带宽进行限速，防止单一业务占用过多。功能概览节点资源超卖调度与 BE 离线应用 CPU 压制：允许节点超卖资源，并根据在线负载动态压制离线应用 CPU 使用，提升资源利用并保证在线应用性能。高优先级应用 CPU 独占与隔离：为高优先级应用分配独占 CPU 核心，通过 cgroup 隔离其他应用，确保关键业务性能稳定。容器磁盘读写限速：通过注解为容器配置磁盘带宽与 IOPS 限制，防止单一容器影响整体磁盘性能。容器网络限速：通过注解为容器配置入站/出站带宽及优先级，保障关键流量的网络体验。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
调度
在离线混部
在离线混部概述
指定ECS和ECI的资源分配
配置示例二：normalNodePrefer调度创建以下Selector，首先kubescheduler默认只会调度pod到标准节点；当标准节点资源不足时导致调度失败时，cubevkprofile会为带有app: nginxnormal Label的Pod添加VNode Toleration，再次由kubescheduler决定调度，同时添加effect中定义的Annotation和Label到Pod。创建selector自定义资源对象，selectornormal.yaml的内容如下： plaintext apiVersion: eci.ctyun.cn/v1 kind: Selector metadata: name: testautovirtualnodenormal spec: objectLabels: matchLabels: app: nginxnormal effect: annotations: ccse.ctyun.cn/eciimagecache: "true" labels: ecischedulable: "true" policy: normalNodePrefer: {} 配置示例三：fair调度创建以下Selector，cubevkprofile会为带有app: nginxfair Label的Pod添加VNode Toleration，由kubescheduler决定调度，同时添加effect中定义的Annotation和Label到Pod。创建selector自定义资源对象，selectorfair.yaml的内容如下： plaintext apiVersion: eci.ctyun.cn/v1 kind: Selector metadata: name: testautovirtualnodefair spec: objectLabels: matchLabels: app: nginxfair effect: annotations: ccse.ctyun.cn/eciimagecache: "true" labels: ecischedulable: "true" policy: fair: {} 配置示例四：normalNodeOnly调度不需创建selector，默认情况下kubescheduler只会调度pod到标准节点；也可以创建以下Selector，cubevkprofile会为带有app: nginxecs Label的Pod添加effect中定义的Annotation和Label，由kubescheduler决定调度。创建selector自定义资源对象，selectorecs.yaml的内容如下： plaintext apiVersion: eci.ctyun.cn/v1 kind: Selector metadata: name: testnginxecs spec: objectLabels: matchLabels: app: nginxecs effect: annotations: ccse.ctyun.cn/imagecache: "true" labels: ccseecs: "true" policy: normalNodeOnly: {}

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
节点与节点池
虚拟节点
指定ECS和ECI的资源分配
节点池概述
状态说明已激活成功创建节点池。扩容中扩容或添加节点池节点中。缩容中移除节点池节点中。已删除（该状态用户不可见）成功删除节点池。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
节点与节点池
节点池概述
升级节点池
容器运行时升级 1. 置节点为不可调度 2. 执行节点排水操作 3. 运行时原地升级 4. 恢复节点调度

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
节点与节点池
节点池
升级节点池
扩缩容节点池
本节介绍了扩缩容节点池的用户指南。云容器引擎集群通过调整节点池的期望节点数实现节点池扩缩容，将节点数目维持在期望数量。扩容节点池功能可以保证节点数量足够支撑业务运行，缩容可以节省成本。前提条件 1、容器集群连通性正常。 2、已在容器集群中创建节点池。通过控制台扩缩容节点池 1、登录云容器引擎管理控制台，订购一个高可用集群。 2、在左侧导航栏选择集群。 3、在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择节点管理 > 节点池。 4、在节点池列表页面中，单击目标节点池更多选项的扩容/缩容。 5、扩容填写扩容节点数量。 6、缩容则跳转到节点池的节点列表中勾选所选缩容节点，点击移除。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
节点与节点池
节点池
扩缩容节点池
节点异常问题排查
解决方案 1、通过节点的监控查看磁盘增长曲线，确认异常出现时间点，检查节点上的进程是否存在占用磁盘空间过多的现象。 2、若有大量文件在磁盘上未清理，请清理文件。 3、根据自身业务情况，限制Pod的ephemeralstorage资源配置。 4、建议使用云存储产品，尽量避免使用HostPath数据卷。 5、节点磁盘扩容。 6、降低节点的负载。节点PID不足NodePIDPressure 问题原因通常是节点上的容器占用PID过多导致节点的PID不足。问题现象当节点的可用PID低于pid.available配置项时，则节点状态中NodePIDPressure为True，同时该节点上的容器被驱逐。解决方案 1、执行如下命令，查看节点的最大PID数和节点当前的最大PID。 plaintext sysctl kernel.pidmax 查看最大PID数。 ps eLfawk '{print $2}' sort rn head n 1 查看当前的最大PID。 2、执行如下命令，查看占用PID最多的前5个进程。 plaintext ps elT awk '{print $4}' sort uniq c sort k1 g tail 5 3、根据进程号找到对应进程和所属的Pod，分析占用PID过多的原因并优化对应代码。 4、降低节点的负载。 5、如需重启节点，可尝试重启异常节点。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
节点与节点池
节点异常问题排查
监控节点
本节介绍了监控节点的用户指南。监控节点云容器引擎集群集成了Prometheus监控服务，可查看对应节点实例的基本监控信息。本文介绍如何查看Kubernetes集群下节点的监控信息。操作步骤登录云容器引擎控制台在左侧导航栏选择集群。在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择节点管理 > 节点。在节点页面，单击目标节点右侧左操作列的监控。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
节点与节点池
节点管理
监控节点
负载调度策略概述
本节介绍了负载调度策略概述。在Kubernetes体系内，Pod构成了工作负载调度的核心单元。当创建工作负载时，调度系统会自动为Pod分配合理的位置，例如将它们分散到资源充裕的节点上。尽管调度器的默认设置足以应对许多基础需求，但在特定场景下，用户可能希望对Pod的部署位置进行更为精细的控制。为此，Kubernetes提供了在工作负载定义中自定义调度策略的功能。具体示例如下：将前端与后端应用部署在同一位置，有助于缩减延迟，因为它们可以共享物理资源。某些应用需部署在特定节点上，以确保关键应用始终运行在最优硬件或配置上。不同应用部署在不同节点上，有助于实现应用隔离，防止问题扩散。 Kubernetes中Pod调度策略节点选择（nodeSelector）：这是最简单的调度方式，通过节点标签选择目标节点，仅将Pod调度到拥有特定标签的节点。参考指引：设置负载的节点选择器（nodeSelector）节点亲和性（nodeAffinity）：节点亲和性不仅具备nodeSelector的功能，而且更为强大。它允许您根据节点标签使用标签选择器筛选亲和节点，支持必须满足和尽量满足的规则。参考指引：设置节点亲和调度（nodeAffinity）工作负载亲和性/反亲和性（podAffinity/podAntiAffinity）：根据工作负载标签，使用标签选择器筛选亲和/反亲和的Pod，并将新工作负载调度/不调度至目标Pod所在节点（或节点组），同样支持必须满足和尽量满足的规则。参考指引：设置工作负载亲和/反亲和调度（podAffinity/podAntiAffinity）注意 1. 若同时指定nodeSelector和nodeAffinity，则两者条件均需满足，Pod才能被调度到候选节点。 2. 在大规模集群中，由于工作负载亲和性和反亲和性需要额外计算时间，可能会显著降低调度速度，因此不建议在包含数百个节点的集群中使用节点亲和性调度策略。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
工作负载（新版）
配置负载调度策略
负载调度策略概述
设置节点亲和调度（nodeAffinity）
本节介绍了设置节点亲和调度(nodeAffinity)的用户指南。在Kubernetes中，节点亲和性调度是一种强大的机制，它允许您根据节点的标签将工作负载精确地调度到具有特定属性（如GPU支持）的节点上。以下是如何配置和使用节点亲和性调度策略的简明指南。配置节点亲和性调度策略 1. 标记节点：首先，确保您的GPU节点已被标记。在本例中，GPU节点被标记为gputrue。 2. 选择调度策略：不配置：如果不设置节点亲和策略，Kubernetes将按照默认调度策略随机分配Pod。指定节点调度：直接指定Pod部署的节点，适用于已知确切部署位置的情况。指定节点池调度：指定Pod部署的节点池，适用于节点池管理策略。自定义亲和策略：根据节点标签实现灵活调度。 3. 配置自定义亲和策略：选择规则：在“自定义亲和策略”中，选择“必须满足”或“尽量满足”规则。必须满足：硬约束，Pod只能调度到满足所有指定条件的节点上。尽量满足：软约束，调度器会尝试调度到满足条件的节点，但即使不满足也会进行调度。设置参数：权重（仅“尽量满足”）：取值1100，作为调度时的附加评分项。标签名：需要匹配的节点标签。操作符：六种匹配关系（In、NotIn、Exists、DoesNotExist、Gt、Lt），用于定义标签与值的匹配逻辑。标签值：与标签名对应的值。 4. 添加策略：在调度策略配置中，点击“添加策略”并填写上述参数。 5. 快速选择（可选）：通过“指定节点调度”或“指定节点池调度”快速选择目标节点或节点池，这些选项本质上也是基于标签实现的便捷操作。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
工作负载（新版）
配置负载调度策略
设置节点亲和调度（nodeAffinity）
创建有状态负载(StatefulSet)
实例间发现服务配置 Headless Service用于解决StatefulSet内Pod互相访问的问题，Headless Service给每个Pod提供固定的访问域名。具体请参见Headless Service。服务配置服务（Service）是用来解决Pod访问问题的。每个Service有一个固定IP地址，Service将访问流量转发给Pod，而且Service可以给这些Pod做负载均衡。您也可以在创建完工作负载之后再创建Service，Service的概念和使用方法请参见Service概述。高级配置设置升级策略、调度策略、标签与注解、DNS 配置、性能管理配置、网络配置等。单击右下角“创建工作负载”完成创建。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
工作负载（新版）
创建有状态负载(StatefulSet)
Pod异常问题排查
Pod状态为Evicted 问题现象：Pod的状态为Evicted。问题原因：当节点的内存、磁盘空间、文件系统的inode和操作系统可分配的PID等资源中的一个或者多个达到特定的消耗水平，节点的kubelet进程就会主动地驱逐一到多个Pod，以回收节点资源。解决方案： 1、执行以下命令，查看Pod的status.message字段，来确定Pod被驱逐的原因。 kubectl get pod o yaml n 2、执行以下命令，删除被驱逐的Pod。 kubectl get pods n grep Evicted awk '{print $1}' xargs kubectl delete pod n Pod OOM异常问题处理问题现象：容器异常重启，并重启次数较多问题原因：Pod使用超过其限制的内存解决方案： 1、确定发生OOM异常的Pod所在的节点 2、登录Pod所在的Node，查看系统日志文件/var/log/message，搜索out of memory关键字，确认具体被OOM终止时间点和进程名称 3、根据Pod的内存监控数据，排查Pod内应用进程否存在内存泄漏。若应用进程存在内存泄漏导致需客户自行修正程序漏洞。若进程运行状态正常，则根据实际运行需要，适当增大Pod的内存限制

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
应用管理
Pod异常问题排查
搭建IPv4/IPv6双栈集群
步骤 2 创建集群登录CCE控制台，在右上角选择“创建集群”。网络配置请按如下设置，其余配置可参考新建集群虚拟私有云：选择已开启IPV6的VPC。所在子网：仅支持选择已开启了IPv6的子网。启用IPV6：选择开启，开启后将支持通过IPv6地址段访问集群资源，包括节点和工作负载等。 Pod子网：仅支持选择已开启了IPv6的子网。 Service CIDR：容器网段要设置合理的掩码，掩码决定集群内可用节点数量。集群中容器网段掩码设置不合适，会导致集群实际可用的节点较少。 Service CIDRV6：该网段决定了支持 IPv6 地址的 Service 资源的上限，创建后不可修改，默认为fc00::/112。如需自定义该网段，需要满足以下要求：Service CIDRV6网段需属于fc00::/8网段内。IPv6地址前缀长度范围为112120，您可以通过调整前缀数值，调整地址个数，地址数最多可支持65536个。步骤 3 购买和加入共享带宽默认IPv6地址只具备私网通信能力，如果您需要通过IPv6地址访问Internet或被Internet上的IPv6客户端访问，您需要购买和绑定共享带宽。如您已有共享带宽，可以不用重新购买，直接将IPv6地址加入共享带宽即可。在虚拟私有云 VPC中左侧导航栏，选择“弹性公网IP和带宽 > 共享带宽”。在共享带宽列表页，单击操作列的“添加公网IP”。将IPv6地址加入共享带宽。结果验证：登录到ECS实例，ping一个公网上的IPv6服务，验证连通性。例如：ping6 ipv6.ctyun.cn。

来自：
帮助文档
云容器引擎专有版/托管版
最佳实践
集群
搭建IPv4/IPv6双栈集群
弹性伸缩概述
组件名称组件介绍适用场景 cubeclusterautoscaler CCSE自研插件，节点水平伸缩组件，提供了调度、弹性优化、成本优化的功能。全场景支持，适合在线业务、深度学习、大规模成本算力交付等。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
弹性伸缩
弹性伸缩概述
Service诊断
本节介绍了Service诊断对应的检查项以及修复方案。 Service诊断主要包括Service后端Ready Pod数量、异常Event等检查项。注意使用故障诊断功能时，系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本，负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。 Service诊断对应的检查项根据集群配置，具体检查项可能稍有不同。实际结果请以诊断页面结果为准。检查项名称说明修复方案检查Service后端Ready Pod数量检查Service后端Ready Pod数量。检查业务Pod状态，保证Pod存在且处于Ready状态。检查Service是否存在异常事件检查集群中是否存在与该Service相关的异常事件。请检查并处理Service异常事件中的描述信息，若无法处理，请提交工单。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
运维管理
故障诊断
Service诊断
节点诊断
Node检查检查项名称说明修复方案检查节点是否存在检查集群中是否存在该节点。请检查Node在集群中是否存在。检查节点状态是否Ready 检查节点在集群中的状态是否为Ready。请登录到节点上执行systemctl status kubelet或journalctl exu kubelet查看节点上kubelet进程异常日志并尝试修复。检查ECS实例是否存在检查ECS实例是否存在。请检查ECS实例状态。检查ECS实例状态正常检查ECS实例状态，实例状态异常时会影响Pod的正常运行。请检查ECS实例状态。检查节点状态是否不可调度检查节点是否不可调度，不可调度的节点会影响Pod的正常运行。节点不可调度，请检查节点调度设置。检查节点Chronyd进程状态是否正常检查节点Chronyd进程是否异常，该进程异常可能会影响系统时钟同步。节点Chronyd进程异常，可能影响节点系统时间同步。请尝试通过命令systemctl restart chronyd重启节点Chronyd进程。检查节点Ntpd进程状态是否正常检查节点Ntpd进程是否异常，该进程异常时可能会影响系统时钟同步。节点Ntpd进程异常，可能影响节点系统时间同步。请尝试通过命令systemctl restart ntpd重启节点Ntpd进程。检查节点Containerd状态是否正常检查节点Containerd服务的状态，该进程异常时可能会影响Pod的正常运行。节点Containerd状态异常，请收集节点日志并提交工单处理。检查节点Containerd镜像拉取是否正常检查节点Containerd进程拉取pause镜像是否正常。请检查节点网络及镜像配置。检查节点Docker状态是否正常检查节点Dockerd服务的状态，该进程异常时可能会影响Pod的正常运行。节点Docker状态异常，请收集节点日志并提交工单处理。检查节点Docker镜像拉取是否正常检查节点Docker进程拉取pause镜像是否正常。请检查节点网络及镜像配置。检查节点Kubelet状态是否正常检查节点Kubelet服务的状态，该进程可能会影响Pod的正常运行。请检查节点kubelet日志。检查节点Kubelet启动时间检查节点Kubelet进程启动时间。无节点OS版本检查节点操作系统版本。无节点内核版本检查节点内核版本是否过低，内核版本过低可能造成系统异常。请尝试更换节点升级内核。节点Systemd版本检查节点systemd版本。无节点runc版本检查节点runc版本，runc版本过低可能造成系统异常。无节点系统时间检查节点系统时间。无节点硬件时间检查节点硬件时间。无节点硬件时间漂移检查节点硬件时钟与系统时间是否一致，时间相差超过2分钟可能引起组件异常。请尝试登录节点，通过命令hwclock systohc将节点系统时间同步到硬件时间。检查节点内存交换区开启情况检查节点内存交换区 (Memory Swap) 功能是否开启，K8s默认要求关闭内存交换区。当前节点内存交换区 (Memory Swap) 功能不支持开启，请登录节点关闭该功能。检查Conntrack表使用情况检查节点Conntrack表是否满，Conntrack表满可能影响网络性能。请检查nfconntrackbuckets和nfconntrackmax内核参数。检查节点访问集群API Server是否正常检查节点能否正常连接集群API Server，访问集群中其他K8s资源。请检查集群相关配置。请检查集群相关配置。检查Master组件Pod是否异常。API Server使用的负载均衡ELB是否异常。节点DNS服务地址检查节点能否正常使用主机DNS服务，通过主机DNS服务解析集群外域名。请检查主机DNS服务是否正常。更多信息，请参见DNS解析异常问题排查。集群DNS服务ClusterIP 检查集群DNS服务的Cluster IP是否正常分配，集群DNS服务异常会造成集群功能异常，影响业务。请检查CoreDNS Pod运行状态和运行日志。更多信息，请参见DNS解析异常问题排查。检查节点访问集群DNS服务是否正常检查节点能否正常访问集群kubedns服务的Cluster IP，通过集群的DNS服务解析集群内域名。请检查CoreDNS Pod运行状态和运行日志。更多信息，请参见DNS解析异常问题排查。检查节点访问集群DNS后端端点是否正常检查节点能否正常访问集群CoreDNS的Pod IP地址，通过CoreDNS进行域名解析。请检查节点能否正常访问CoreDNS的Pod IP地址。更多信息，请参见DNS解析异常问题排查。检查节点内网IP是否存在检查节点内网IP是否存在。节点内网IP不存在，请尝试移除节点后重新导入，移除时需保留ECS。检查节点能否访问公网检查节点能否正常访问公网，无法访问公网可能影响公网镜像拉取。请检查集群是否开启SNAT公网访问。节点CPU使用率检查节点CPU负载是否过高，CPU负载过高可能影响系统性能。无节点内存使用率检查节点内存负载是否过高，内存过高可能影响系统性能。无

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
运维管理
故障诊断
节点诊断

天翼云最新活动

云聚517 · 好价翼起拼

爆款云主机低至25.83元/年，参与拼团享更多优惠，拼成得额外优惠券

安全隔离版OpenClaw

OpenClaw云服务器专属“龙虾“套餐低至1.5折起

聚力AI赋能天翼云大模型专项

大模型特惠专区·Token Plan 轻享包低至9.9元起

青云志云端助力计划

一站式科研助手，海外资源安全访问平台，助力青年翼展宏图，平步青云

企业出海解决方案

助力您的业务扬帆出海，通达全球！

天翼云信创专区

“一云多芯、一云多态”,国产化软件全面适配，国产操作系统及硬件芯片支持丰富

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

镜像服务 IMS

弹性伸缩服务 AS

弹性高性能计算 E-HPC

训推服务

AI Store

Token服务

应用托管

科研助手

一站式智算服务平台

推荐文档

域名实名认证

启动即时会议

分布式消息服务的功能

公告

配置目的端

产品功能

续订