边缘容器集群(ECK专有版)_边缘容器集群(ECK专有版)文档介绍内容-天翼云

云容器集群节点进程终止(1)
本章节介绍云容器集群节点进程终止故障演练。背景介绍在云容器引擎（CCE）环境中，节点上运行着众多关键进程，包括 kubelet、containerd 等 Kubernetes 核心组件，以及各类系统监控、日志采集的 Agent。当这些关键进程因 OOM、软件缺陷或人工误操作被意外终止时，可能会导致节点功能异常、Pod 管理失控甚至整个节点脱离集群。本演练模拟节点上的任意进程被终止的场景，帮助您评估系统对核心组件故障的容忍度，并检验集群的自愈和告警能力。基本原理通过kill 9或kill 15停止节点上的指定进程。故障注入 1、纳管实例资源 1. 导航至故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云容器引擎，然后单击添加资源。 3. 在弹出的对话框中，勾选目标云容器引擎实例，单击确定。 4. 在应用资源页面的云容器引擎列表中，找到您的目标集群，单击其操作列的节点列表。 5. 在弹出的对话框中，单击添加节点。 6. 勾选您希望进行故障演练的一个或多个节点，然后单击确定。注意当您首次对 CCE 集群执行演练时，系统会自动在该集群中安装演练探针（以 Deployment 和 DaemonSet 形式部署）。您也可以提前在故障演练 > 目标应用 > 探针管理 > 云容器引擎界面查看探针的基本信息，并手动执行安装或更新操作。

来自：
指标告警
本节介绍了:指标告警的用户指南。应用场景在云容器引擎服务中，资源监控已经对接了云监控服务，并能够使用云监控提供的指标告警能力。前提条件已创建集群，具体操作请参见用户指南 > 集群 > 新建集群章节。若已有集群，无需重复操作。集群已安装ccsemonitor插件，可参考用户指南 > 插件章节创建通知组登陆云容器引擎控制台，点击左侧导航栏中的集群，进入集群列表页面。在集群列表中点击需要配置告警的集群，进入集群管理页面. 左侧菜单栏选择运维管理 > 指标告警 > 通知组进入通知组配置页面。通知组支持联系人、翼连、WebHook集成三种通知对象，其中联系人支持手机号（短信）和邮箱（邮件）、翼连支持发送到翼连群、WebHook支持发送到用户指定的WebHook后端。创建基础策略登陆云容器引擎控制台，点击左侧导航栏中的集群，进入集群列表页。在集群列表中点击需要配置告警的集群，进入集群管理页面。左侧菜单栏选择运维管理 > 指标告警 > 告警策略进入通知策略配置页面，点击按钮创建通知策略创建通知策略。通知策略可以配置通知对象、通知模板、渲染API地址、通知时段，其中通知对象为用户在通知组设置的对象，邮件、短信、翼连三种告警方式支持分别独立配置模板，一般没有特殊需求使用默认模板即可。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
运维管理
监控
指标告警
创建高可用集群
本文介绍了创建高可用集群的用户指南。天翼云云容器引擎具备多可用区（AZ）的能力。容器集群的控制节点与工作节点可以分别设置是否使用多可用区。设置方法 1.创建高可用集群的方式与普通集群基本一致，仅在master配置与节点池配置处有区别。创建集群的其它操作可参考快速入门 > 创建一个应用集群 > 订购集群 2.在master配置>已选规格>自定义各可用区的master数量，建议master分布到多可用区达到高可用目的。见下图 3.在节点池配置>已选规格>自定义各可用区的工作节点数量，建议将节点池内的节点部署在多个可用区。见下图

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
集群
新建集群
创建高可用集群
访问URL时出现空白页面
本文介绍使用DDoS高防（边缘云版）后访问URL时出现空白页面的问题原因及解决方案。问题现象使用天翼云DDoS高防（边缘云版）后，访问特定URL时出现空白页面，即页面没有任何内容显示。问题原因 1、域名解析问题：可能是由于域名解析存在异常，导致无法正确访问到天翼云节点并获取有效的内容。详情请见：如何确认域名CNAME解析是否正常。 2、源站异常：可能是源站出现故障或配置错误，导致边缘节点无法正确获取内容并回源给用户。定位方法，详情请见：如何确认访问异常是边缘节点问题还是源站问题。解决方案 1、域名解析问题解决方案：检查CNAME是否有配置错误。解决方案，详情请见：如何处理CNAME解析不生效问题。如无CNAME配置错误，可等待一段时间，重新尝试访问URL，以确保域名解析已经生效。 3、源站异常解决方案：方案一：检查源站服务器是否正常运行，并修复可能存在的故障或配置错误。方案二：检查源站对应URL文件是否正常，并更换为正常的URL 文件。如果以上方案还是无法解决您的问题，请提交工单联系天翼云客服协助处理。

来自：
帮助文档
DDoS高防（边缘云版）
故障排查
访问URL时出现空白页面
计费模式
本节介绍了DDoS高防（边缘云版）的各个计费项的详细规格及说明。天翼云DDoS 高防（边缘云版）提供三个计费项可供选择：套餐、扩展服务、弹性防护。其中，套餐计费的保底防护带宽、CC防护能力、业务带宽和接入域名数为包年包月预付费，在套餐的基础上可以叠加购买扩展服务，和套餐一样，扩展服务也是包年包月预付费；弹性防护带宽为按需后付费，按天结算。计费项描述说明 :: 套餐按照购买的套餐进行计费套餐为预付费，套餐为基础费用，套餐失效则扩展服务均失效扩展服务根据购买的扩展功能进行计费，包含域名数、端口数、业务带宽、缓存功能扩展服务为预付费，套餐失效则扩展服务均失效弹性防护按照业务需求购买弹性防护峰值，包含防护带宽、CC防护按需后付费，根据超出保底带宽的部分产生后按照超出部分所属阶梯价格付费（按天收费），防护超过选定的最高防护带宽，则通过解析回源，2小时后自动解封套餐含安全保底业务带宽、接入域名数等，按月付费。如果保底业务带宽不能满足需求，可以购扩展带宽，当带宽超出购买套餐+扩展带宽时，会进行域名限速。建议您根据业务系统可能会遭受的攻击量级或者历史被攻击情况的数据等因素，进行DDoS高防（边缘云版）的选配。

来自：
帮助文档
DDoS高防（边缘云版）
计费说明
计费模式
查看基线检查列表
本节介绍基线检查列表的参数信息。 1. 登录容器安全卫士产品控制台。 2. 在左侧导航栏选择“安全合规”，进入安全合规页面。 3. 在安全合规页面单击“基线名称”，进入基线详情页面。 4. 筛选检查项：支持按照“集群”、“检查项名称”、“类型”、“启用状态”进行筛选查询。 “集群”筛选通过左上角“集群”下拉列表选择，支持选择全部集群或单个集群，集群改变时，检查通过率、检查未通过、检查通过数量和详情会随之更新。 5. 基线合规信息参数说明。参数说明检查项名称基线检查项的名称。基线检查项类别基线检查项类别随着基线类型的不同而不同。检查对象类型类型指的是基线检查项检测对象的类型，分为容器、镜像和节点。来源基线检查项的来源。检测通过率该基线检测项在相应对象类型（容器或镜像或节点）中的检查通过率，通过用绿色线条表示，不通过用红色线条表示。检查未通过未通过该基线检测项的容器（或镜像、或节点）数量。检查通过通过该基线检测项的容器（或镜像、或节点）数量。启用状态是否启用该基线检查项。

来自：
帮助文档
容器安全卫士
用户指南
安全合规
查看基线检查列表
云容器集群Pod进程停止(1)
本章节介绍云容器集群Pod进程停止故障演练。背景介绍在 CCE 中，Pod 容器内进程若意外终止，可能导致业务中断和 Pod 重建。本演练模拟进程终止，评估系统容错及自愈与告警能力。基本原理通过kill 9停止节点上的指定进程。故障注入 1、纳管实例资源 1. 导航至故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云容器引擎，然后单击添加资源。 3. 在弹出的对话框中，勾选目标云容器引擎实例，单击确定。 4. 在应用资源页面的云容器引擎列表中，找到您的目标集群，单击其操作列的pod列表。 5. 在弹出的对话框中，单击添加pod。 6. 勾选您希望进行故障演练的一个或多个pod ，然后单击确定。注意当您首次对 CCE 集群执行演练时，系统会自动在该集群中安装演练探针（以 Deployment 和 DaemonSet 形式部署）。您也可以提前在故障演练 > 目标应用 > 探针管理 > 云容器引擎界面查看探针的基本信息，并手动执行安装或更新操作。 2、编排演练任务 1. 导航至故障演练 > 目标应用 > 演练管理页面，单击新建演练。 2. 在基本信息页面，按提示填写演练名称和描述，然后单击下一步。 3. 在演练对象配置页面：配置动作组：为动作组命名，资源类型选择云容器引擎Pod。添加实例：单击添加实例，勾选上一步中添加的云容器引擎Pod实例。添加故障动作：单击立即添加，在列表中选择进程停止动作。 4. 在弹出的参数配置框中，配置所需参数，然后单击确定。持续时间：故障动作持续时间。进程关键词：例如nginx。停止进程的方式：强制结束表示使用 SIGKILL (信号9)，优雅结束表示使用 SIGTERM (信号15) 容器选择模式：选择攻击pod中容器，可以“按资源定义的首个容器”，也可以“指定容器名称”，当选择指定容器名称时，需要输入容器的名称。容器名称：填写攻击目标的容器名

来自：
数据盘空间分配说明
自定义容器引擎空间大小数据盘根据容器存储Rootfs不同具有两种划分方式（以100G大小为例）：DeviceMapper类型和 OverlayFS类型。您可以登录到节点通过docker info命令查看存储引擎类型，如下所示。 docker infoContainers: 20 Running: 17 Paused: 0 Stopped: 3 Images: 16 Server Version: 18.09.0 Storage Driver: devicemapper Device Mapper类型存储Rootfs其中默认占90%的容器引擎和容器镜像空间又可分为以下两个部分：其中/var/lib/docker用于Docker工作目录，默认占比20%，其空间大小数据盘空间 90% 20% thinpool用于存储容器镜像数据、镜像元数据以及容器使用的磁盘空间，默认占比为80%，其空间大小数据盘空间 90% 80% thinpool是动态挂载，在节点上使用df h命令无法查看到，使用lsblk命令可以查看到。 OverlayFS类型存储Rootfs 相比Device Mapper存储引擎，没有单独划分thinpool，容器引擎和容器镜像空间（默认占90%）都在/var/lib/docker目录下。容器存储Rootfs情况如下： CCE集群：EulerOS 2.5操作系统使用Device Mapper，Ubuntu 18.04和EulerOS 2.9使用OverlayFS。CentOS 7.6 在1.19.16以下版本集群中使用Device Mapper，1.19.16及以上版本集群使用OverlayFS。EulerOS 2.8系统在集群版本v1.19.16r2前使用Device Mapper, v1.19.16r2及之后版本使用OverlayFS。

来自：
帮助文档
云容器引擎
用户指南
节点管理
节点概述
数据盘空间分配说明
HTTP/HTTPS网络端点事件目标
参数说明示例 URL 输入HTTP/HTTPS目标的URL地址。 HTTP METHOD 选择HTTP协议请求方式。 POST 消息体选择调用到服务的事件内容，更多内容请参考完整事件网络类型选择服务所在的网络环境。专有网络：选择租户专有网络的VPC和子网。专有网络鉴权配置选择服务的鉴权配置。无需鉴权：无鉴权、无需配置。 Basic：输入Basic认证的账号密码。 Token：输出Token认证方式的token。无需鉴权 Header 调用所带上的请求头。

来自：
帮助文档
事件总线
用户指南
事件总线
事件规则
事件目标
目标服务类型
HTTP/HTTPS网络端点事件目标
LoadBalancer类型Service
本节介绍网络的用户指南:LoadBalancer类型Service 云容器引擎支持将Service通过负载均衡ELB向外暴露，云容器引擎集群内置CCM（Cloud Controller Manager）插件，当Service的类型为LoadBalancer时，CCM插件会为Service配置负载均衡，并根据Service信息配置好负载均衡的后端服务器组、健康检查和监听规则等，使得用户可以通过负载均衡访问该Service。以下是使用负载均衡的步骤指引。使用已有负载均衡暴露服务前提条件用户已提前在负载均衡控制台创建ELB实例，ELB实例需要与Service所在的容器集群在同一个VPC网络下。注意事项不同Service可以同时复用同一个负载均衡实例，复用同一个负载均衡实例需要避免不同Service使用相同的服务端口，否则存在监听配置被覆盖的情况不能复用由CCM自动创建的或集群ApiServer使用的负载均衡实例当Service删除时，使用已有的负载均衡不会被删除集群Master节点不作为负载均衡实例的后端操作步骤 1. 登录云容器引擎控制台，点击进入想要操作的集群，在左侧菜单选择“网络” “服务”； 2. 如下图，点击“新建”按钮新建服务，按照参数说明配置相关的参数；服务访问方式：选择负载均衡负载均衡：可根据业务需要选择私网访问或公网访问，集群内或同一VPC内访问建议选择私网访问即可；选择“使用已有负载均衡”；负载均衡实例列表会根据选择的私网/公网访问方式显示出对应的实例，选择想要使用的负载均衡实例即可标签：根据需要可以为服务配置标签注解：根据需要可以为服务配置注解外部流量策略：Cluster或Local。Cluster策略下，集群所有可用工作节点都会挂载到负载均衡实例；Local策略下，只有Service对应的Pod所在节点会挂载到负载均衡实例端口映射：配置好协议、容器端口及服务端口，其中容器端口为应用本身暴露的端口，服务端口则会作为负载均衡实例的监听端口工作负载绑定：选择服务要关联的工作负载，也可以配置自定义标签关联 3. 创建服务后，在服务列表可以看到该服务，通过服务的集群外访问地址即可以访问该服务。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
网络
Service管理
LoadBalancer类型Service
产品优势
开箱即用无缝对接云容器引擎，一键安装部署即可监控容器集群。提供开箱即用的监控大盘、告警规则。低成本免费提供容器集群基础指标监控。提供全托管服务，无需额外购置资源，有效降低监控成本，维护成本近乎为零。开源兼容无缝支持标准开源 Prometheus 的配置文件格式（prometheus.yml），可灵活适配 Kubernetes 环境中的自定义监控规则（如ServiceMonitor）及基于注解（Annotation）的默认采集配置。支持用户自定义维度的数据模型构建、通过 HTTP API 进行数据交互，以及使用 PromQL 实现复杂的指标查询与分析。无上限数据规模依托云存储能力，实现数据存储无上限，突破本地容量限制。云端分布式存储确保数据可靠性。通过聚合实例实现对多套云容器集群的统一监控，用户可以实现跨容器集群的聚合查询。

来自：
帮助文档
应用性能监控 APM
用户指南
Prometheus监控
产品概述
产品优势
云容器集群Pod CPU高负载
本章节介绍云容器集群Pod CPU高负载故障演练。背景介绍在 CCE 环境中，Pod CPU 异常升高不仅影响自身稳定性，还可能与同节点其他服务争抢资源，引发连锁问题。因此，模拟 Pod 的高 CPU 负载可用于验证系统的弹性、容错机制、监控告警能力及自动扩缩容策略。基本原理启动自定义程序，空跑for循环来消耗CPU时间片。故障注入 1、纳管实例资源 1. 导航至故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云容器引擎，然后单击添加资源。 3. 在弹出的对话框中，勾选目标云容器引擎实例，单击确定。 4. 在应用资源页面的云容器引擎列表中，找到您的目标集群，单击其操作列的pod列表。 5. 在弹出的对话框中，单击添加pod。 6. 勾选您希望进行故障演练的一个或多个pod ，然后单击确定。注意当您首次对 CCE 集群执行演练时，系统会自动在该集群中安装演练探针（以 Deployment 和 DaemonSet 形式部署）。您也可以提前在故障演练 > 目标应用 > 探针管理 > 云容器引擎界面查看探针的基本信息，并手动执行安装或更新操作。

来自：
帮助文档
应用高可用
用户指南
故障演练服务
故障动作库
云容器
云容器引擎
云容器集群Pod CPU高负载
云容器集群Pod CPU高负载(1)
本章节介绍云容器集群Pod CPU高负载故障演练。背景介绍在 CCE 环境中，Pod CPU 异常升高不仅影响自身稳定性，还可能与同节点其他服务争抢资源，引发连锁问题。因此，模拟 Pod 的高 CPU 负载可用于验证系统的弹性、容错机制、监控告警能力及自动扩缩容策略。基本原理启动自定义程序，空跑for循环来消耗CPU时间片。故障注入 1、纳管实例资源 1. 导航至故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云容器引擎，然后单击添加资源。 3. 在弹出的对话框中，勾选目标云容器引擎实例，单击确定。 4. 在应用资源页面的云容器引擎列表中，找到您的目标集群，单击其操作列的pod列表。 5. 在弹出的对话框中，单击添加pod。 6. 勾选您希望进行故障演练的一个或多个pod ，然后单击确定。注意当您首次对 CCE 集群执行演练时，系统会自动在该集群中安装演练探针（以 Deployment 和 DaemonSet 形式部署）。您也可以提前在故障演练 > 目标应用 > 探针管理 > 云容器引擎界面查看探针的基本信息，并手动执行安装或更新操作。

来自：
概览
本文将为您介绍Web应用防火墙（边缘云版）的概览页。网站接入边缘云WAF防护并新增域名成功后，系统将会自动为您捕获网站的业务数据及受攻击数据，您可以通过概览页面查询近24小时带宽峰值、请求数量、QPS、域名数量以及各种攻击行为的检测数据，帮助您了解网站当前的整体情况。若您想知道更详细的网站安全相关报表，可见安全分析报表。若您想知道更详细的网站业务相关报表，可见站点分析报表。前提条件网站已经成功接入边缘云WAF防护，您可以通过【域名列表】是否含有已启用域名来确认。具体操作请见WAF接入。操作步骤 1. 登录Web应用防火墙（边缘云版）控制台，进入左侧导航栏【概览页面】。 2. 将自动为您查询近24小时的数据。 3. 概览页主要提供三个部分的数据查看：消息中心、业务统计数据、安全防护数据。查询消息中心概览页面顶部具备消息通知栏，支持查看威胁消息、域名配置信息以及系统消息。威胁消息。展示互联网已经公布和尚未披露的0 day漏洞信息，您可以查看漏洞对网站是否有影响，如果受到漏洞的影响，可以联系天翼云安全专家沟通具体的解决方案，联系方式见服务保障。域名消息。在此模块展示域名配置的相关消息，域名新增/停用或者配置下发后，可以在此查看域名的配置情况，配置成功将会形成新消息。系统消息。即系统公告，展示更新说明、版本发布、边缘云WAF功能相关动态等信息。

来自：
帮助文档
Web应用防火墙（边缘云版）
安全运营
概览
三方云注册集群
本节介绍三方云注册集群。 CCE One 三方云注册集群是用于将其他云厂商 Kubernetes 集群接入天翼云容器服务管理平台统一管理的集群形态。操作步骤参考本地注册集群的操作步骤，与本地注册集群接入的操作步骤差异如下：在分布式容器管理控制台，在注册集群指引页面，单击三方云集群选项卡中的注册集群。三方云集群接入后扩展的能力注册集群是多集群管理能力的基础。三方云接入天翼云后可添加舰队，舰队是多集群统一管理的基础。添加舰队后可开启联邦能力，做多集群资源统一管理。

来自：
帮助文档
分布式容器云平台 CCE One
用户指南
注册集群
三方云注册集群
【公告】天翼云Web应用防火墙（边缘云版）服务等级协议更新公告
尊敬的天翼云用户：您好！天翼云于2025年1月4日更新《天翼云Web应用防火墙（边缘云版）服务等级协议》，新版协议将于2026年1月19日正式生效。请您尽快阅读更新后的协议内容：《天翼云Web应用防火墙（边缘云版）服务等级协议》，此次更新内容主要包括：第二条服务承诺2.2.3，您可以点击协议链接访问最新协议。您在本次更新生效后继续使用服务将被视为您接受修改后的条款。如您不同意遵守新服务等级协议，您可在2026年1月19日前退订并停止使用天翼云产品及服务。感谢您对天翼云一直以来的支持，如有任何问题可随时通过服务热线（4008109889）与我们联系，给您带来不便，敬请谅解。天翼云服务团队

来自：
【公告】天翼云DDoS高防（边缘云版）服务等级协议更新公告
尊敬的天翼云用户：您好！天翼云于2025年1月4日更新《DDoS高防（边缘云版）服务等级协议》，新版协议将于2026年1月19日正式生效。请您尽快阅读更新后的协议内容：《天翼云DDoS高防（边缘云版）服务等级协议》，此次更新内容主要包括：第二条服务承诺2.2.3，您可以点击协议链接访问最新协议。您在本次更新生效后继续使用服务将被视为您接受修改后的条款。如您不同意遵守新服务等级协议，您可在2026年1月19日前退订并停止使用天翼云产品及服务。感谢您对天翼云一直以来的支持，如有任何问题可随时通过服务热线（4008109889）与我们联系，给您带来不便，敬请谅解。天翼云服务团队

来自：
帮助文档
DDoS高防（边缘云版）
产品公告
【公告】天翼云DDoS高防（边缘云版）服务等级协议更新公告
DNS最佳实践
本节介绍了:DNS最佳实践的用户指南。 DNS最佳实践 DNS是Kubernetes集群中至关重要的基础服务之一，在客户端设置不合理、集群规模较大等情况下DNS容易出现解析超时、解析失败等现象。本文介绍Kubernetes集群中DNS的最佳实践，帮助您避免此类问题。前提条件创建Kubernetes集群获取集群KubeConfig并通过kubectl工具连接集群优化域名解析请求 DNS域名解析请求是Kubernetes最高频的网络行为之一，其中很多请求是可以优化和避免的。您可以通过以下方式优化域名解析请求：（推荐）使用连接池：当一个容器应用需要频繁请求另一服务时，推荐使用连接池。连接池可以将请求上游服务的链接缓存在内存中，避免每次访问时域名解析和TCP建连的开销。（推荐）使用DNS缓存：当您的应用无法改造成通过连接池连接另一服务时，可以考虑在应用侧缓存DNS解析结果。优化resolv.conf文件：由于resolv.conf文件中ndots 和search两个参数的机制作用，容器内配置域名的不同写法决定了域名解析的效率。优化域名配置：当容器内应用需要访问某域名时，可以最大程度减少域名解析尝试次数，继而减少域名解析耗时。使用合适的容器镜像 Alpine容器镜像内置的musl libc库与标准glibc的实现存在以下差异： 3.3及更早版本Alpine不支持search参数，不支持搜索域，无法完成服务发现。并发请求/etc/resolv.conf中配置的多个DNS服务器，导致NodeLocal DNSCache优化失效。并发使用同一Socket请求A和AAAA记录，在旧版本内核上触发Conntrack源端口冲突导致丢包问题。当Kubernetes集群中部署的容器采用了Alpine作为基础镜像时，可能会因为上述musl libc特性而无法正常解析域名，建议尝试更换基础镜像，如Debian、CentOS等。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
网络
服务发现DNS
DNS最佳实践
云容器集群Pod内存高负载(1)
本章节介绍云容器集群Pod内存高负载故障演练。背景介绍在 CCE 环境中，Pod 运行在共享资源的节点上。内存高负载常因泄漏、数据膨胀或缓存失控引起，可能触发 Kubernetes 的 OOM 机制，导致 Pod 重启、请求失败，甚至影响同节点其他服务。基本原理启动自定义程序不断申请内存，模拟Pod内存负载升高。故障注入 1、纳管实例资源 1. 导航至故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云容器引擎，然后单击添加资源。 3. 在弹出的对话框中，勾选目标云容器引擎实例，单击确定。 4. 在应用资源页面的云容器引擎列表中，找到您的目标集群，单击其操作列的pod列表。 5. 在弹出的对话框中，单击添加pod。 6. 勾选您希望进行故障演练的一个或多个pod ，然后单击确定。注意当您首次对 CCE 集群执行演练时，系统会自动在该集群中安装演练探针（以 Deployment 和 DaemonSet 形式部署）。您也可以提前在故障演练 > 目标应用 > 探针管理 > 云容器引擎界面查看探针的基本信息，并手动执行安装或更新操作。 2、编排演练任务 1. 导航至故障演练 > 目标应用 > 演练管理页面，单击新建演练。 2. 在基本信息页面，按提示填写演练名称和描述，然后单击下一步。 3. 在演练对象配置页面：配置动作组：为动作组命名，资源类型选择云容器引擎Pod。添加实例：单击添加实例，勾选上一步中添加的云容器引擎Pod实例。添加故障动作：单击立即添加，在列表中选择内存高负载动作。 4. 在弹出的参数配置框中，配置所需参数，然后单击确定。持续时间：故障动作持续时间。内存占用率：目标占用率（取值 0100）。容器选择模式：选择攻击pod中容器，可以“按资源定义的首个容器”，也可以“指定容器名称”，当选择指定容器名称时，需要输入容器的名称。容器名称：填写攻击目标的容器名称

来自：
使用LVM动态存储卷(1)
4、创建工作负载登录“云容器引擎”管理控制台；在集群列表页点击进入指定集群；进入主菜单“工作负载”——“有状态”，单击左上角“创建SatefulSet”；在创建对话框，数据卷栏中，选择添加数据卷，卷类型选择“使用已有PVC”，操作栏选择“添加已有PVC”；在实例内容器栏，为容器设置挂载点。选择添加挂载点，选择数据卷为上一步创建，根据需要配置容器路径和权限；所有的信息都配置完成后，单击 “提交” 。创建成功后，您就可以正常使用数据卷。通过kubectl命令行使用LocalPV动态存储卷 1、创建存储类（StorageClass）使用kubectl连接集群，创建示例yaml文件scexample.yaml： plaintext apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: cstorcsilocallvmsc provisioner: local.csi.cstor.com parameters: 产品类型 type: lvm 所需挂载文件系统，当前支持ext4和xfs csi.storage.k8s.io/fstype: xfs 基础存储 baseStor: vg2 reclaimPolicy: Delete allowVolumeExpansion: true mountOptions: discard 执行以下命令，创建StorageClass plaintext kubectl apply f scexample.yaml 查看创建的StorageClass：登录“云容器引擎”管理控制台；在集群列表页点击进入指定集群；进入主菜单“存储”——“存储类”，在存储类列表查看。

来自：
云容器集群节点DNS篡改
本章节介绍云容器集群节点DNS篡改故障演练。背景介绍 DNS 篡改是一种常见的攻击手段或配置错误，它会导致域名被错误地解析到非预期的IP地址，从而在云容器引擎（CCE）环境中引发节点间流量劫持、服务访问异常或数据泄露等风险。本演练通过模拟 DNS 篡改场景，帮助您检验集群的安全防护机制、验证监控告警的有效性，并评估业务在域名解析被劫持时的表现。基本原理通过修改本地DNS解析文件实现。故障注入 1、纳管实例资源 1. 导航至故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云容器引擎，然后单击添加资源。 3. 在弹出的对话框中，勾选目标云容器引擎实例，单击确定。 4. 在应用资源页面的云容器引擎列表中，找到您的目标集群，单击其操作列的节点列表。 5. 在弹出的对话框中，单击添加节点。 6. 勾选您希望进行故障演练的一个或多个节点，然后单击确定。注意当您首次对 CCE 集群执行演练时，系统会自动在该集群中安装演练探针（以 Deployment 和 DaemonSet 形式部署）。您也可以提前在故障演练 > 目标应用 > 探针管理 > 云容器引擎界面查看探针的基本信息，并手动执行安装或更新操作。

来自：
帮助文档
应用高可用
用户指南
故障演练服务
故障动作库
云容器
云容器引擎
云容器集群节点DNS篡改
云容器集群节点DNS篡改(1)
本章节介绍云容器集群节点DNS篡改故障演练。背景介绍 DNS 篡改是一种常见的攻击手段或配置错误，它会导致域名被错误地解析到非预期的IP地址，从而在云容器引擎（CCE）环境中引发节点间流量劫持、服务访问异常或数据泄露等风险。本演练通过模拟 DNS 篡改场景，帮助您检验集群的安全防护机制、验证监控告警的有效性，并评估业务在域名解析被劫持时的表现。基本原理通过修改本地DNS解析文件实现。故障注入 1、纳管实例资源 1. 导航至故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云容器引擎，然后单击添加资源。 3. 在弹出的对话框中，勾选目标云容器引擎实例，单击确定。 4. 在应用资源页面的云容器引擎列表中，找到您的目标集群，单击其操作列的节点列表。 5. 在弹出的对话框中，单击添加节点。 6. 勾选您希望进行故障演练的一个或多个节点，然后单击确定。注意当您首次对 CCE 集群执行演练时，系统会自动在该集群中安装演练探针（以 Deployment 和 DaemonSet 形式部署）。您也可以提前在故障演练 > 目标应用 > 探针管理 > 云容器引擎界面查看探针的基本信息，并手动执行安装或更新操作。

来自：
ECI Pod Annotation
参数示例值描述 ccse.ctyun.cn/eniinstanceid portxxx ECI容器实例的网卡ID k8s.ctyun.cn/eciinstanceid ecixxxxx ECI容器实例的ID k8s.ctyun.cn/eciinstancecpu "1.0" ECI容器实例CPU大小 k8s.ctyun.cn/eciinstancemem "1.0" ECI容器实例Memory大小 k8s.ctyun.cn/eciinstancezone cnxxxxxxxxpublicctcloud ECI容器实例所在可用区名称 k8s.ctyun.cn/ecivpc vpcxxxxxx ECI容器实例所属VpcId k8s.ctyun.cn/ecisubnet subnetxxxxxx ECI容器实例所属子网ID k8s.ctyun.cn/ecisecuritygroup sgxxxxxx ECI容器实例所在的安全组ID k8s.ctyun.cn/ecirequestid 80e90ccca5b54034acae7c0c8eeb376f 请求ID k8s.ctyun.cn/k8sversion v1.25.6 集群版本 k8s.ctyun.cn/clusterdns 10.96.0.10 集群DNS服务器的IP地址 k8s.ctyun.cn/clusterdomain cluster.local 集群本地域名 k8s.ctyun.cn/vkversion v1.2.020240829 cubevk版本

来自：
帮助文档
云容器引擎 Serverless版
用户指南
ECI Pod
ECI Pod Annotation
边缘裸金属服务器挂载NFS文件系统
本文主要介绍边缘裸金属服务器挂载NFS协议类型的文件存储的方案。应用场景边缘裸金属服务器挂载文件存储，可以有多个应用场景，例如在数据密集型处理场景中，如气象数据分析、基因测序等，可将大量数据存储于文件存储，供多台边缘裸金属服务器快速读取和写入，提升数据处理效率。在需要共享存储的分布式计算场景里，如分布式数据库集群，通过挂载文件存储，各边缘裸金属服务器节点可共享配置文件、数据文件等资源，保障集群协同工作。文件存储可提供高带宽、低延迟的数据访问，满足边缘裸金属服务器对存储性能的要求：高可用性，文件存储具备冗余机制，能有效保障数据安全与业务连续性。扩展性强，可依据业务增长灵活扩展存储容量，无需中断服务。易于管理，集中化存储便于统一管理监控，降低运维难度。前提条件边缘裸金属服务器需和文件存储网络互通，需要采用 underlay vpc 网络。创建 underlay vpc 流程如下： 1. 登录ECX控制台。 2. 点击左侧【边缘网络】，选择【虚拟机私有云 > vpc和子网】 3. 点击【+创建虚拟私有云】，在基础信息中，类型需要选择为underlay，子网类型为underlay并填写规划好的 vlan 号。创建边缘裸金属服务器和文件存储时，均要选择对应创建的 underlay vpc 网络。

来自：
帮助文档
智能边缘云
最佳实践
边缘裸金属服务器挂载NFS文件系统
故障诊断概述
本节介绍了故障诊断的用户指南,云容器引擎提供一键故障诊断能力,包括Service诊断、节点诊断、Pod诊断、Ingress诊断,辅助定位集群中出现的异常问题。前提条件已创建容器集群，具体操作请参见用户指南 > 集群 > 新建集群。确保集群运行状态处于运行中。故障诊断功能介绍云容器引擎提供的故障诊断功能如下表所示：诊断项说明 Service诊断诊断Service相关问题，例如Service后端就绪Pod、异常事件信息等。节点诊断诊断节点相关问题，例如K8s节点NotReady等。 Pod诊断诊断K8s Pod状态异常相关的问题，例如Pod启动失败、Pod频繁重启等。 Ingress诊断诊断Ingress相关流量配置问题。配置故障诊断注意使用故障诊断功能时，系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本、负载、Docker、kubelet等运行状态以及系统日志中的关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。配置Service、节点、Pod、Ingress等诊断操作类似。下文以配置节点诊断为例，介绍如何配置故障诊断功能。 1. 登陆云容器引擎控制台，点击左侧导航栏中的集群，进入集群列表页。 2. 在集群列表中点击需要配置故障诊断的集群，进入集群管理页面。 3. 在集群管理页面导航栏中选择运维管理 > 故障诊断，进入故障诊断页面。 4. 在故障诊断页面，点击节点诊断Tab页面，在选择节点面板，选择需要诊断的节点名称，点击确定按钮发起诊断。在诊断列表页面可查看诊断进展。诊断完成后，诊断页面将显示诊断结果。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
运维管理
故障诊断
故障诊断概述
通过kubectl连接多集群
本节介绍了云容器引擎的最佳实践:通过kubectl连接多集群。当用户在云容器引擎中拥有多个Kubernetes（K8s）集群实例时，如何在一个主机终端通过kubectl连接访问多个集群，请参考如下指引。前提条件：拥有多个集群实例，且当前用户在某一主机网络能够连接多个集群的主机。原理：在某一主机上，配置多个集群实例的kubectl访问凭证，通过kubectl命令切换使用不同集群的上下文。获取多个集群的kubectl访问凭证：打开云容器引擎的集群信息连接信息tab页面，可查看到当前集群的访问凭证，点击复制按钮： apiVersion: v1 clusters: cluster: server: name: kubernetes contexts: context: cluster: kubernetes user: "16261" name: 1626117120288662000021 currentcontext: 1626217120288662000021 kind: Config preferences: {} users: name: "16261" user: clientcertificatedata: LS0tLS1CRUdJTiBDR1... clientkeydata: LS0tLS1CRUdJTiBSU0Eg1... clusters：描述集群的信息，我们需要取集群的访问地址，用于配置多个集群cluster列表。 users：描述访问集群访问用户的信息，我们需要取clientcertificatedata和clientkeydata这两个证书文件内容，用于配置多个集群的user列表。 contexts：描述集群配置的上下文，每个上下文关联了user和对应的cluster，用kubectl命令切换上下文，便可指定使用指定的user去访问对应的集群。注意一个集群可能有内网访问地址和公网访问地址，有两个上下文，可配置成两个cluster及对应的usercontext，通过切换上下文选择使用不同的地址访问集群。

来自：
帮助文档
云容器引擎专有版/托管版
最佳实践
集群
通过kubectl连接多集群
退订
本节介绍退订。如果您有退订的需求，可以进行登录天翼云管理中心或分布式容器云平台控制台进行退订操作。天翼云目前支持7天无理由全额退订和非七天无理由退订以及其他退订，详细规则请参考文档费用中心退订。退订注册集群登录分布式容器云平台控制台，进入“集群管理” 页面。选择要退订的集群资源，弹窗确认无误后，点击“确认”即可完成退订。退订集群通道登录分布式容器云平台控制台，进入“通道管理” 页面。选择要退订的通道资源，弹窗确认无误后，点击“确认”即可完成退订。退订集群联邦登录分布式容器云平台控制台，进入“联邦管理” 页面。选择要退订的联邦资源，弹窗确认无误后，点击“确认”即可完成退订。

来自：
帮助文档
分布式容器云平台 CCE One
计费说明
退订
退费说明(1)
本节介绍退订。如果您有退订的需求，可以进行登录天翼云管理中心或分布式容器云平台控制台进行退订操作。天翼云目前支持7天无理由全额退订和非七天无理由退订以及其他退订，详细规则请参考文档费用中心退订。退订注册集群登录分布式容器云平台控制台，进入“集群管理” 页面。选择要退订的集群资源，弹窗确认无误后，点击“确认”即可完成退订。退订集群通道登录分布式容器云平台控制台，进入“通道管理” 页面。选择要退订的通道资源，弹窗确认无误后，点击“确认”即可完成退订。退订集群联邦登录分布式容器云平台控制台，进入“联邦管理” 页面。选择要退订的联邦资源，弹窗确认无误后，点击“确认”即可完成退订。

来自：
使用LocalPV动态存储卷
3、创建工作负载 1. 登录“云容器引擎”管理控制台； 2. 在集群列表页点击进入指定集群； 3. 进入主菜单“工作负载”——“有状态”，单击左上角“创建SatefulSet”； 4. 在创建对话框，数据存储栏中，选择添加存储卷，卷类型选择“已有存储卷申明（PVC）”，操作栏选择“选择已有存储申明”；根据自己需要设置挂载路径、子路径和权限，参数说明：挂载路径：存储挂载到容器后，容器内部显示的路径地址。不建议使用类似于/usr或者/tmp类似的已有的容器目录路径，可能会造成目录相互遮蔽。子路径：需要挂载的存储源地址的子目录权限：读写/只读示例：将PVC“local”对应存储的subpath指向的子目录（subpath为空表示使用根目录）挂载到容器里的/test路径上。 5. 所有的信息都配置完成后，单击“提交”，创建成功后，您可以正常使用数据卷。通过kubectl命令行使用LocalPV动态存储卷 1、创建存储类（StorageClass）使用kubectl连接集群，创建示例yaml文件scexample.yaml： plaintext apiVersion: "storage.k8s.io/v1" kind: "StorageClass" metadata: name: "testlocalpv" allowVolumeExpansion: true parameters: 基础存储路径 baseStor: "/mnt" type: "localpv" provisioner: "local.csi.cstor.com" reclaimPolicy: "Delete" volumeBindingMode: "Immediate" 执行以下命令，创建StorageClass plaintext kubectl apply f scexample.yaml 查看创建的StorageClass：登录“云容器引擎”管理控制台；在集群列表页点击进入指定集群；进入主菜单“存储”——“存储类”，在存储类列表查看。

来自：
帮助文档
云容器引擎专有版/托管版
用户指南
存储
本地存储
使用LocalPV动态存储卷
扫描组件
本节介绍如何扫描集群内的组件，发现组件上的漏洞。操作步骤 1. 登录容器安全卫士控制台。 2. 在左侧导航栏选择“集群安全 > 组件漏洞”，进入组件漏洞页面。 3. 单击组件漏洞列表右上角的“开始扫描”，对集群内的组件进行扫描，获取全部组件漏洞信息。 4. 扫描完成后，即可查看组件漏洞列表。组件漏洞列表内，支持按照“组件名称”“组件版本”“集群名称”“集群版本”“命名空间”“节点名称”“危险级别”进行筛选查询。组件列表参数说明：参数说明组件名称 Kubernetes集群中的组件主要有以下几类：控制平面组件（Control Plane Components）：控制平面的组件对集群做出全局决策（比如调度），以及检测和响应集群事件。包括kubeapiserver、etcd、kubescheduler、kubecontrollermanager、cloudcontrollermanager等组件。 Node组件：节点组件在每个节点上运行，维护运行的Pod并提供Kubernetes运行环境。包括kubelet、kubeproxy等组件。容器运行时（Container Runtime）组件：容器运行时组件是负责运行容器的软件。第三方插件：插件使用Kubernetes资源（DaemonSet、Deployment等）实现集群功能。因为这些插件提供集群级别的功能，插件中命名空间域的资源属于kubesystem命名空间。包括DNS、Dashboard等组件。组件版本组件的版本。集群名称组件所属集群的名称。集群版本组件所属集群的版本。命名空间组件所属命名空间。节点名称组件运行所在节点的名称。漏洞数量显示组件内存在的不同风险等级的漏洞数量统计信息。最后一次扫描时间该组件最后一次被扫描的时间。

来自：
帮助文档
容器安全卫士
用户指南
集群安全
组件漏洞
扫描组件
云容器集群Pod磁盘IO高负载
本章节介绍云容器集群Pod磁盘IO高负载故障演练。背景介绍在云原生架构中，容器应用依赖持久化存储（PVC、云盘、NAS 等）保存关键数据。磁盘 I/O 高负载（如大量文件读写、日志堆积或后台任务异常）会导致服务延迟、请求超时甚至不可用，影响业务连续性。在多 Pod 共享磁盘的环境下，异常 I/O 不仅拖慢自身，也可能影响同节点其他服务。故障演练平台可通过模拟高磁盘负载验证系统稳定性。基本原理先通过dd命令将数据写入文件中，然后再通过循环读写文件占用磁盘带宽。故障注入 1、纳管实例资源 1. 导航至故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云容器引擎，然后单击添加资源。 3. 在弹出的对话框中，勾选目标云容器引擎实例，单击确定。 4. 在应用资源页面的云容器引擎列表中，找到您的目标集群，单击其操作列的pod列表。 5. 在弹出的对话框中，单击添加pod。 6. 勾选您希望进行故障演练的一个或多个pod ，然后单击确定。注意当您首次对 CCE 集群执行演练时，系统会自动在该集群中安装演练探针（以 Deployment 和 DaemonSet 形式部署）。您也可以提前在故障演练 > 目标应用 > 探针管理 > 云容器引擎界面查看探针的基本信息，并手动执行安装或更新操作。

来自：
帮助文档
应用高可用
用户指南
故障演练服务
故障动作库
云容器
云容器引擎
云容器集群Pod磁盘IO高负载
Flash(2)
2.1.1 高性能计算集群（HCC）大模型精简版功能定位：包含 Slurm 调度系统、apptainer 高性能容器，实现deepseek服务一键启停。开通步骤： 1. 登录天翼云控制台，进入“弹性高性能计算”产品页面，选择“高性能计算集群”，点击进入集群控制台。 2. 点击“创建集群”，在集群类型中选择“大模型精简版”。 3. 依次配置各项参数，包括计费模式、地域、可用区、集群名称、虚拟私有云、安全组、共享存储（ SFS 或 OceanFS）、管理节点和计算节点的对应规格、镜像、磁盘、子网、登录密码。（注：当前大模型精简版暂不支持无计算节点的集群创建，需至少配置1台计算节点） 4. 确认所有配置无误后，提交订单并完成集群创建，等待节点纳管完成，直至集群页面显示“可用”“配置完成”状态。 5. 点击已创建的集群，选择左侧“节点”栏，删除配置的计算节点，仅保留管理节点即可。 2.2 NVMe 磁盘挂载配置昇腾910B物理机默认配备2×3.2T NVMe SSD，请格式化后用于存储模型文件，提升推理性能。需将节点的nvme1n1和nvme0n1两块 NVMe 盘分别挂载至/mnt/nvme1n1和/mnt/nvme0n1目录。可通过以下脚本实现自动化挂载及开机自动挂载的配置： plaintext !/bin/bash

来自：

天翼云最新活动

云聚517 · 好价翼起拼

爆款云主机低至25.83元/年，参与拼团享更多优惠，拼成得额外优惠券

安全隔离版OpenClaw

OpenClaw云服务器专属“龙虾“套餐低至1.5折起

聚力AI赋能天翼云大模型专项

大模型特惠专区·Token Plan 轻享包低至9.9元起

青云志云端助力计划

一站式科研助手，海外资源安全访问平台，助力青年翼展宏图，平步青云

企业出海解决方案

助力您的业务扬帆出海，通达全球！

天翼云信创专区

“一云多芯、一云多态”,国产化软件全面适配，国产操作系统及硬件芯片支持丰富

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

弹性云主机 ECS

镜像服务 IMS

弹性伸缩服务 AS

训推服务

公共算力服务

人脸实名认证

人脸属性识别

人脸活体检测

通用型OCR

推荐文档

玩转天翼云①：如何获得管理员权限的方法

修改实例安全组

产品功能

云课堂第十三课：如何远程管理天翼云RDS数据库

删除

使用场景

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

弹性云主机 ECS

镜像服务 IMS

弹性伸缩服务 AS

训推服务

公共算力服务

人脸实名认证

人脸属性识别

人脸活体检测

通用型OCR

推荐文档

玩转天翼云①：如何获得管理员权限的方法

修改实例安全组

产品功能

云课堂 第十三课：如何远程管理天翼云RDS数据库

删除

使用场景

云课堂第十三课：如何远程管理天翼云RDS数据库