产品定义(1) 本章节介绍故障演练服务的产品定义。 产品定义 故障演练服务是云原生混沌工程平台,深度融合云原生应用产品体系,提供标准化引导、正确性约束和自动化运行的实验管理,支持大规模、低成本、影响可控、形式多样的应用故障演练,帮助企业增强应用系统的容错能力和恢复能力,提升客户应用云上运行的稳定性。 为什么需要故障演练 应用高可用建设往往是基于先验设计的具体实施,描绘一幅全面但静态的蓝图。而问题在于,随着部署环境、流量模式和调用依赖的日益复杂,系统运行时的动态变化远超预设,没人能预判所有潜在问题。每一次故障都是独特的,但故障的成因是可枚举的,从基础设施到上层服务,功能趋同形成内聚的节点,这有限的故障归因,是高可用建设的结果能够预期的基础。 每一种容灾手段就像针对某类疾病的靶向药,从实验室开发到药品上市,要经过一期又一期的临床实验,才能勉力对抗人类基因的无限性,确保药品在广泛的病患群体中取得符合预期的疗效。异常是不可避免的,高可用建设不是消灭异常,而是消化异常。故障演练就是应用高可用的临床实验,在生产的可控范围内进行可预期的异常暴露和处理,随着不断迭代改进,演练形成的风险处置预案就像给系统注入的疫苗,随时应对真实的生产故障。
来自: