背景介绍

网络延迟是云容器引擎（CCE）集群中微服务架构最常见的微故障之一。跨可用区的Pod间通信、访问外部依赖服务、网络拥塞等都可能导致通信延迟增加。这会直接影响应用的响应时间，降低用户体验，甚至在复杂的调用链中引发雪崩效应。本演练模拟可控的网络延迟，帮助您检验系统的超时设置、熔断机制的有效性，并发现潜在的性能瓶颈。

基本原理

通过增加TC和Netem规则模拟Node内网络延迟。

注意

只对出方向流量生效，不会影响入流量；如果系统已配置有TC规则，动作执行会失败。

故障注入

1、纳管实例资源

导航至 故障演练 > 目标应用 > 应用资源 页面。
在资源类型页签中选择云容器引擎，然后单击添加资源。
在弹出的对话框中，勾选目标云容器引擎实例，单击确定。
在应用资源页面的云容器引擎列表中，找到您的目标集群，单击其操作列的节点列表。
在弹出的对话框中，单击添加节点。
勾选您希望进行故障演练的一个或多个节点，然后单击确定。

注意

当您首次对 CCE 集群执行演练时，系统会自动在该集群中安装演练探针（以 Deployment 和 DaemonSet 形式部署）。

您也可以提前在 故障演练 > 目标应用 > 探针管理 > 云容器引擎 界面查看探针的基本信息，并手动执行安装或更新操作。

2、编排演练任务

导航至 故障演练 > 目标应用 > 演练管理页面，单击新建演练。
在基本信息页面，按提示填写演练名称和描述，然后单击下一步。
在演练对象配置页面：
- 配置动作组：为动作组命名，资源类型选择云容器引擎节点。
- 添加实例：单击添加实例，勾选上一步中添加的云容器引擎节点实例。
- 添加故障动作：单击立即添加，在列表中选择网络延迟动作。
在弹出的参数配置框中，配置所需参数，然后单击确定。
- 持续时间：故障动作持续时间。
- 本地端口：仅对源端口为指定端口的流量生效。例如，可设置为您对外提供服务的端口。可以指定多个，使用逗号分隔或者连接符表示范围，例如 80,8000-8080。
- 远程端口：仅对目标端口为指定端口的流量生效。例如，可设置为您的应用访问数据库的端口。可以指定多个，使用逗号分隔或者连接符表示范围，例如 80,8000-8080。
- 排除端口：排除指定端口的流量。可以指定多个，使用逗号分隔或者连接符表示范围，例如 22,8000 或者 8000-8010。这个参数不能与本地端口或者远程端口参数一起使用。
- 目标IP：支持通过子网掩码来指定一个网段的IP地址, 例如 192.168.1.0/24. 则 192.168.1.0~192.168.1.255 都生效。也可以指定固定的 IP，如 192.168.1.1 或者 192.168.1.1/32，还可以通过逗号分隔多个参数，例如 192.168.1.1,192.168.2.1。
- 网卡设备：指定在哪个网络接口上实施故障，网卡可通过ifconfig命令查询，例如 eth0。
- 排除IP：排除受影响的 IP，支持通过子网掩码来指定一个网段的IP地址, 例如 192.168.1.0/24. 则 192.168.1.0~192.168.1.255 都生效。也可以指定固定的 IP，如 192.168.1.1 或者 192.168.1.1/32，还可以通过逗号分隔多个参数，例如 192.168.1.1,192.168.2.1。
- 延迟时间(毫秒)：为每个数据包增加的固定延迟时长。
- 延迟浮动值(毫秒)：在固定延迟时长上的随机浮动范围。最终延迟为延迟时间 ± 延迟浮动值，用于模拟更真实的网络抖动

3、配置全局策略

在全局配置页面，按需添加保护策略和监控指标。
配置完成后，单击完成按钮，创建演练任务。

4、发起故障注入

发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。
进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。
注入故障：在动作组中，找到网络延迟动作卡片，单击执行。
查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。

效果验证

在故障注入期间，您可以通过以下方式验证演练效果：

1、观测实例指标：

2、业务应用验证：

观察运行在目标节点上的业务 Pod 与其他 Pod 或外部服务通信时，是否出现响应延迟增加或请求超时。
检查应用日志，确认是否有因超时而触发的重试、熔断或降级逻辑。
确认 Kubernetes 的 liveness/readiness 探针是否因网络延迟而探测超时，导致 Pod 被重启。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

应用高可用

应用高可用

背景介绍

基本原理

故障注入

1、纳管实例资源

2、编排演练任务

3、配置全局策略

4、发起故障注入

效果验证

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

应用高可用

应用高可用

背景介绍

基本原理

故障注入

1、纳管实例资源

2、编排演练任务

3、配置全局策略

4、发起故障注入

效果验证