应用场景(1) 3. 检验监控告警的有效性 故障的及时发现依赖实时的监控告警,模拟故障发生是检验监控系统能否在第一时间准确告警、应急响应流程是否清晰高效的最佳手段。 场景示例: 模拟调用延迟 :通过模拟云主机网络延迟场景,验证监控系统能否精准检测“接口P99响应时间”等指标劣化,确保告警策略及时触发。 模拟启动失败 :通过模拟云主机端口占用场景,验证监控系统对应用部署流程的异常感知能力,确保持续发布(CD)符合运维预期。 模拟连接中断 :通过模拟缓存实例不可用场景,验证监控系统对中间件连接异常的检测灵敏度,确保告警能精准通知相关人员。 4. 验证应用服务的强弱依赖 随着系统复杂度的提升,服务间的依赖日益庞杂,但也有强弱之分。举例来说,从业务的角度,交易操作对账户余额是强依赖,对附加积分则是弱依赖;从系统的角度,应用对数据库是强依赖,对缓存则是弱依赖。通过故障演练,可以稳定地得到应用间的依赖关系及其强弱程度,提前发现可能因为依赖导致的问题,控制故障的级联效应。 场景示例: 梳理强弱依赖:对于复杂的微服务系统,通过模拟服务不可用的情况,可以帮助应用自动梳理强弱依赖。 限流降级参考:根据经验值来设置限流阈值可能带来偏差,通过依赖验证可以直观地评估限流降级的影响。 系统改造验收:在系统重构升级之后,可以通过依赖验证来确保应用的依赖关系没有发生变化,或重估依赖的影响。
来自: