活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 驭马迎春·福礼抢先领 5.5折无门槛折扣券+开箱即用方案双加持,节后上云快人一步!
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
算力互联调度平台
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      应用高可用

      应用高可用

      • 应用高可用

      无数据

        • 产品动态
        • 产品简介
        • 产品定义
        • 应用容灾多活
        • 产品定义
        • 产品优势
        • 产品架构
        • 应用场景
        • 名词解释
        • 使用限制
        • 故障演练服务
        • 产品定义
        • 产品优势
        • 应用场景
        • 名词解释
        • 购买指南
        • 应用容灾多活计费说明
        • 计费说明
        • 支持的功能模块
        • 欠费与退订说明
        • 快速入门
        • 快速接入应用容灾多活
        • 进行故障演练实验
        • 用户指南
        • 应用容灾多活
        • 应用管理
        • 应用系统
        • 模块开通
        • 架构管理
        • 单元配置
        • 路由配置
        • 资源管理
        • 配置总览
        • 接入层配置
        • 数据层配置
        • 消息层配置
        • 服务层配置
        • 多活容灾
        • 基线推送
        • 多活切流
        • 运维监控
        • 架构地图
        • 操作日志
        • 日常巡检
        • 权限管理
        • 服务内联委托
        • 故障演练服务
        • 环境管理
        • 应用管理
        • 应用配置
        • 应用资源
        • 监控指标
        • 探针管理
        • 云主机探针管理
        • 云容器探针管理
        • 创建VPC终端节点
        • 演练管理
        • 演练任务
        • 执行演练
        • 故障动作库
        • 计算
        • 弹性云主机
        • 云主机宕机
        • 云主机CPU高负载
        • 云主机内存高负载
        • 云主机磁盘IO高负载
        • 云主机磁盘IO Hang
        • 云主机磁盘填充
        • 云主机网络丢包
        • 云主机网络延迟
        • 云主机网络包重复
        • 云主机网络包乱序
        • 云主机网络包损坏
        • 云主机端口占用
        • 云主机DNS篡改
        • 云主机DNS不可用
        • 云主机JVM延迟
        • 中间件
        • 分布式消息服务Kafka
        • Kafka Broker节点CPU高负载
        • Kafka Broker节点磁盘IO高负载
        • Kafka Broker节点主机宕机
        • Kafka Broker分区Leader不可用
        • 注册配置中心RCC
        • RCC停止服务
        • RCC停止节点
        • 云容器
        • 云容器引擎
        • 云容器托管Master节点宕机
        • 云容器ETCD集群节点故障
        • 云容器集群节点宕机
        • 云容器集群节点CPU高负载
        • 云容器集群节点内存高负载
        • 云容器集群节点磁盘IO高负载
        • 云容器集群节点磁盘填充
        • 云容器集群节点网络丢包
        • 云容器集群节点网络延迟
        • 云容器集群节点网络包重复
        • 云容器集群节点网络包乱序
        • 云容器集群节点网络包损坏
        • 云容器集群节点DNS篡改
        • 云容器集群节点进程挂起
        • 云容器集群节点进程终止
        • 云容器集群Pod CPU高负载
        • 云容器集群Pod内存高负载
        • 云容器集群Pod磁盘IO高负载
        • 云容器集群Pod磁盘填充
        • 云容器集群Pod网络丢包
        • 云容器集群Pod网络延迟
        • 云容器集群Pod网络包重复
        • 云容器集群Pod网络包乱序
        • 云容器集群Pod网络包损坏
        • 云容器集群Pod DNS篡改
        • 云容器集群Pod删除
        • 云容器集群Pod进程挂起
        • 云容器集群Pod进程停止
        • 云容器集群Pod Java方法调用延迟
        • 云容器集群Pod Java方法抛自定义异常
        • 容器镜像服务
        • Harbor服务不可用
        • 数据库
        • 分布式缓存服务Redis版
        • Redis主从切换
        • Redis节点故障
        • Proxy节点故障
        • Redis节点主机宕机
        • Redis节点CPU高负载
        • Redis节点内存高负载
        • Redis节点磁盘IO高负载
        • Redis节点磁盘IO Hang
        • Redis节点网络丢包
        • 权限管理
        • 服务内联委托
        • 最佳实践
        • 应用容灾多活
        • 应用双活接入示例
        • 业务单元化双活实践
        • 故障演练服务
        • Kafka Broker节点CPU高负载故障演练实战
        • 常见问题
        • 应用容灾多活
        • 产品类
        • 技术类
        • 功能类
        • 故障演练服务
        • 产品类
        • 技术类
        • 功能类
        • 相关协议
        • 服务协议
          无相关产品

          本页目录

          帮助中心应用高可用产品简介故障演练服务产品定义
          产品定义
          更新时间 2026-02-11 10:45:48
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-02-11 10:45:48
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本章节介绍故障演练服务的产品定义。

          产品定义

          故障演练服务是云原生混沌工程平台,深度融合云原生应用产品体系,提供标准化引导、正确性约束和自动化运行的实验管理,支持大规模、低成本、影响可控、形式多样的应用故障演练,帮助企业增强应用系统的容错能力和恢复能力,提升客户应用云上运行的稳定性。

          为什么需要故障演练

          应用高可用建设往往是基于先验设计的具体实施,描绘一幅全面但静态的蓝图。而问题在于,随着部署环境、流量模式和调用依赖的日益复杂,系统运行时的动态变化远超预设,没人能预判所有潜在问题。每一次故障都是独特的,但故障的成因是可枚举的,从基础设施到上层服务,功能趋同形成内聚的节点,这有限的故障归因,是高可用建设的结果能够预期的基础。

          每一种容灾手段就像针对某类疾病的靶向药,从实验室开发到药品上市,要经过一期又一期的临床实验,才能勉力对抗人类基因的无限性,确保药品在广泛的病患群体中取得符合预期的疗效。异常是不可避免的,高可用建设不是消灭异常,而是消化异常。故障演练就是应用高可用的临床实验,在生产的可控范围内进行可预期的异常暴露和处理,随着不断迭代改进,演练形成的风险处置预案就像给系统注入的疫苗,随时应对真实的生产故障。

          混沌工程的最佳实践

          混沌工程是指导故障演练进行系统性实验的学科,萌发于2008年Netflix业务上云后的实践需求,随后被诸多大型互联网企业采纳实践,伴随着系统复杂度和不可预知性而发展,逐渐形成体系的方法论,成为保障分布式系统稳定性的核心方法论之一。

          • 建立一个围绕稳定状态行为的假说,用可测量的输出来定义系统的运行状态,验证系统是否正常工作,而不是试图验证它如何工作。

          • 多样化真实世界的事件,关注任何能够破坏稳态的事件,既有状态引发的异常(如硬件故障、软件故障),也有行为引发的异常(如错误配置、流量过载),引入的故障成因要尽可能贴近现实,按潜在影响和发生概率进行优先级排序。

          • 在生产环境中运行实验,系统的行为会依据环境和流量模式而有所不同,最佳的拟真环境就是真实的环境,但稳态破坏的风险暗含故障影响的不可逆性,渐进式多环境实验更为恰当。

          • 持续自动化运行实验,故障演练是循环改进的过程,避免人工依赖的不可持续性,要在系统中构建实验的自动化编排和分析。

          • 最小化爆炸半径,引入故障是为了暴露问题,不是创造问题,演练应该尽量避免对业务造成不可接受的实质伤害,要确保负面影响最小化且都被考虑到。

          故障演练的业务痛点

          • 技术要求高:异构的故障源,从基础设施到操作系统,从容器环境到应用进程,以及依赖的中间件,都需要理解其原理才能模拟故障。

          • 实施难度大:跨团队、长流程、多权限,故障演练不仅是技术问题,更涉及组织流程与制度,需要建立相应规范。

          • 影响不可控:故障是已知的,影响是未知的。如何感知并最小化“爆炸半径”,既要有处置预案,又要有工具支持。

          故障演练的产品功能

          • 标准化流程管理:固化演练流程,提供组织、人员、应用、资源等多维度的数据与权限管理规范。

          • 丰富的故障场景:实现涵盖应用不同分层的原子故障注入能力,并提供具备业务含义的故障场景组合。

          • 完备的演练防护:实现隔离与熔断双重演练防护,包括权限隔离、环境隔离和范围隔离,以及主动熔断、指标熔断和超时熔断等多种保护机制。

          • 一站式接入管理:深度整合现有应用体系,自动导入组织权限、应用架构和关联资源,实现一站式可编排、可控制、可观测。

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  故障演练服务
          下一篇 :  产品优势
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明