活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 驭马迎春·福礼抢先领 5.5折无门槛折扣券+开箱即用方案双加持,节后上云快人一步!
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
算力互联调度平台
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      应用高可用

      应用高可用

      • 应用高可用

      无数据

        • 产品动态
        • 产品简介
        • 产品定义
        • 应用容灾多活
        • 产品定义
        • 产品优势
        • 产品架构
        • 应用场景
        • 名词解释
        • 使用限制
        • 故障演练服务
        • 产品定义
        • 产品优势
        • 应用场景
        • 名词解释
        • 购买指南
        • 应用容灾多活计费说明
        • 计费说明
        • 支持的功能模块
        • 欠费与退订说明
        • 快速入门
        • 快速接入应用容灾多活
        • 进行故障演练实验
        • 用户指南
        • 应用容灾多活
        • 应用管理
        • 应用系统
        • 模块开通
        • 架构管理
        • 单元配置
        • 路由配置
        • 资源管理
        • 配置总览
        • 接入层配置
        • 数据层配置
        • 消息层配置
        • 服务层配置
        • 多活容灾
        • 基线推送
        • 多活切流
        • 运维监控
        • 架构地图
        • 操作日志
        • 日常巡检
        • 权限管理
        • 服务内联委托
        • 故障演练服务
        • 环境管理
        • 应用管理
        • 应用配置
        • 应用资源
        • 监控指标
        • 探针管理
        • 云主机探针管理
        • 云容器探针管理
        • 创建VPC终端节点
        • 演练管理
        • 演练任务
        • 执行演练
        • 故障动作库
        • 计算
        • 弹性云主机
        • 云主机宕机
        • 云主机CPU高负载
        • 云主机内存高负载
        • 云主机磁盘IO高负载
        • 云主机磁盘IO Hang
        • 云主机磁盘填充
        • 云主机网络丢包
        • 云主机网络延迟
        • 云主机网络包重复
        • 云主机网络包乱序
        • 云主机网络包损坏
        • 云主机端口占用
        • 云主机DNS篡改
        • 云主机DNS不可用
        • 云主机JVM延迟
        • 中间件
        • 分布式消息服务Kafka
        • Kafka Broker节点CPU高负载
        • Kafka Broker节点磁盘IO高负载
        • Kafka Broker节点主机宕机
        • Kafka Broker分区Leader不可用
        • 注册配置中心RCC
        • RCC停止服务
        • RCC停止节点
        • 云容器
        • 云容器引擎
        • 云容器托管Master节点宕机
        • 云容器ETCD集群节点故障
        • 云容器集群节点宕机
        • 云容器集群节点CPU高负载
        • 云容器集群节点内存高负载
        • 云容器集群节点磁盘IO高负载
        • 云容器集群节点磁盘填充
        • 云容器集群节点网络丢包
        • 云容器集群节点网络延迟
        • 云容器集群节点网络包重复
        • 云容器集群节点网络包乱序
        • 云容器集群节点网络包损坏
        • 云容器集群节点DNS篡改
        • 云容器集群节点进程挂起
        • 云容器集群节点进程终止
        • 云容器集群Pod CPU高负载
        • 云容器集群Pod内存高负载
        • 云容器集群Pod磁盘IO高负载
        • 云容器集群Pod磁盘填充
        • 云容器集群Pod网络丢包
        • 云容器集群Pod网络延迟
        • 云容器集群Pod网络包重复
        • 云容器集群Pod网络包乱序
        • 云容器集群Pod网络包损坏
        • 云容器集群Pod DNS篡改
        • 云容器集群Pod删除
        • 云容器集群Pod进程挂起
        • 云容器集群Pod进程停止
        • 云容器集群Pod Java方法调用延迟
        • 云容器集群Pod Java方法抛自定义异常
        • 容器镜像服务
        • Harbor服务不可用
        • 数据库
        • 分布式缓存服务Redis版
        • Redis主从切换
        • Redis节点故障
        • Proxy节点故障
        • Redis节点主机宕机
        • Redis节点CPU高负载
        • Redis节点内存高负载
        • Redis节点磁盘IO高负载
        • Redis节点磁盘IO Hang
        • Redis节点网络丢包
        • 权限管理
        • 服务内联委托
        • 最佳实践
        • 应用容灾多活
        • 应用双活接入示例
        • 业务单元化双活实践
        • 故障演练服务
        • Kafka Broker节点CPU高负载故障演练实战
        • 常见问题
        • 应用容灾多活
        • 产品类
        • 技术类
        • 功能类
        • 故障演练服务
        • 产品类
        • 技术类
        • 功能类
        • 相关协议
        • 服务协议
          无相关产品

          本页目录

          帮助中心应用高可用最佳实践故障演练服务Kafka Broker节点CPU高负载故障演练实战
          Kafka Broker节点CPU高负载故障演练实战
          更新时间 2026-02-11 10:46:44
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-02-11 10:46:44
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接

          案例背景

          某电商平台订单处理系统采用分布式微服务架构,其概要结构图如下,核心流程通过分布式消息服务Kafka集群实现异步解耦:

          • 订单创建:用户在前端提交订单,请求经过负载均衡器转发至订单服务集群。订单服务处理业务逻辑,生成包含订单详情的消息数据,并将该消息可靠地发送至Kafka集群的特定Topic。

          • 下游处理:库存服务(负责扣减库存)、支付服务(负责发起支付请求)和物流服务(负责生成物流配送单)是主要的下游消费者。它们各自订阅Kafka集群中的相应Topic,并行地拉取并处理消息。

          Kafka集群作为异步通信的核心,其稳定性和性能对整个订单系统的可用性至关重要。在高并发的场景下,Kafka Broker可能会面临各种异常情况,其中CPU负载过高是常见的一种,可能由突发流量洪峰、JVM垃圾回收或底层基础设施瓶颈等原因引起。Kafka Broker的CPU高负载会直接影响消息的处理速度,导致生产和消费的延迟,甚至引发整个系统的不稳定。

          故障演练服务提供了分布式消息服务Kafka-Broker节点CPU高负载演练动作,通过模拟这种真实的故障场景,我们可以量化分析Kafka集群在Broker节点CPU受限时的表现,验证订单处理系统及其下游服务对Kafka异常的容忍度和应对能力,并提升团队在真实故障发生时的异常响应与恢复能力。

          演练准备

          1. 开通应用高可用-故障演练服务产品

          2. 开通分布式消息服务Kafka产品

          3. 搭建一套独立的演练环境,包含:

            • 开通与生产配置(版本、节点数、Topic划分、副本数等)一致的Kafka实例。

            • 部署订单服务、库存服务、支付服务、物流服务等应用模块,连接开通的Kafka实例。

            • 准备模拟用户行为的压测工具和脚本,配置业务监控和日志采集,便于观察系统运行表现。

          演练实施

          创建环境

          在左侧菜单栏点击故障演练->环境概览,进入环境列表界面。

          点击创建环境,填写环境基本信息后点击确定完成环境创建。

          创建应用

          在环境列表界面找到刚才创建的环境,进入应用列表界面点击创建应用,填写应用的基本信息。

          在资源配置栏目点击分布式消息服务Kafka->添加资源,根据资源池与实例信息筛选Kafka实例,点击确定完成应用创建。

          演练编排

          在应用列表界面,找到已创建的应用,点击右侧的演练任务->新建演练,根据界面指引填写演练的基本信息,点击下一步进入演练对象配置界面。

          在演练对象配置界面填写动作组名称、动作组描述,资源类型选择分布式消息服务Kafka,点击添加实例,选择待演练的实例后点击确定。

          在动作列表栏目点击立即添加,选择演练动作Broker节点CPU高负载,点击下一步进行动作参数设定,点击确定完成动作添加。

          演练参数名称
           
          配置值
          持续时间(秒)240
           
          CPU占用率
           
          99
           
          故障注入模式
           
          全部注入
           

           

          在全局配置界面,点击监控指标栏目下的添加云产品监控,在弹出的配置界面中添加以下监控项目:

          云产品监控->分布式消息服务Kafka->CPU使用率、磁盘读流量、磁盘写流量、磁盘平均读操作耗时、磁盘平均写操作耗时、存活节点数、节点存活状态。

          确认指标已经添加后,设置演练超时时间为120分钟,点击完成。

          记录基线

          在执行故障注入前,需要模拟业务流量,建立稳定的基线。

          1. 连接分布式消息服务Kafka实例,创建业务Topic:

          kafka-topics.sh --create --bootstrap-server bk01:8090,bk02:8090,bk03:8090 --replication-factor 3 --partitions 6 --topic custom_order  
          1. 启动进程,模拟生产者持续发送数据(25000TPS,每条消息1KB):

          nohup kafka-producer-perf-test.sh --topic custom_order --num-records 20000000 --record-size 1024 --throughput 25000 --producer-props bootstrap.servers bk01:8090,bk02:8090,bk03:8090 > producer.log 2>&1 & 
          1. 启动进程,模拟消费者持续消费数据:

          nohup kafka-consumer-perf-test.sh --topic custom_order --group consumer-group1 --messages 20000000 --show-detailed-stats --bootstrap-server bk01:8090,bk02:8090,bk03:8090 > consumer.log 2>&1 & 
          1. 等待一定时间,直到Kafka自身的监控指标和业务应用指标达到稳定状态。在此期间,记录各项监控指标的基线数值。

          演练执行

          回到演练管理界面,找到刚刚创建的演练任务配置,点击右侧的执行演练->发起新演练任务,填写任务的名称和描述,点击确定发起一次演练任务。

          点击任务名称或者右侧的详情,进入演练执行界面,在动作列表栏目点击执行,发起故障动作注入。

          点击故障注入的节点,在右侧弹出的页面点击查看日志,查询本次故障注入的执行细节。

          演练观察

          在演练执行界面点击监控指标,查看Kafka实例节点所在机器的监控指标变化。为了更细粒度观察故障注入的影响,可登录分布式消息服务Kafka控制台查看详细的指标。

          观察生产流量指标,业务数据产生期间,生产流量持续存在,故障注入期间无明显波动。

          观察生产请求平均处理时长指标,故障注入期间存在明显波动,表明Kafka Broker在CPU高负载下处理生产请求的效率下降,可能导致生产者写入耗时增加。

          观察CPU使用率指标,故障注入期间维持在高位。

          查看压测工具生产者的日志,故障注入前生产者发送一批消息的平均延迟<1ms,故障注入期间延迟大幅度增加,且波动明显,故障恢复后延迟水平恢复正常。

          查看压测工具消费者的日志,故障注入期间消费速度出现了明显波动,但没有出现消息积压。

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  故障演练服务
          下一篇 :  常见问题
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明