概述
演练执行阶段,用户可以手动触发故障、实时观测系统指标、恢复已经注入的故障,并记录最终演练结论。
发起新演练
在演练管理列表中找到希望执行的演练任务,单击操作列的执行演练按钮,进入演练执行记录页面。
在演练执行记录页面,单击左上角的发起新演练按钮。
在弹出的对话框中,为本次执行实例填写一个明确的名称,然后单击确定。
系统将自动跳转到本次演练的运行详情页,也可以在演练执行记录列表中找到对应执行实例,并单击详情进入。
环境预检测
进入演练运行详情页后,系统会自动执行环境预检测,以检查探针状态、网络通路等前置条件。
可以点击查看检测详情,查看整体预检测情况。
可以点击重新检测,手动触发新一轮环境检测。
可以在每个动作组卡片上查看其独立的检测结果。
说明
- 发起演练时,系统会对所有演练资源进行故障注入依赖检查,可在导航栏查看所有动作组资源的检查情况,也可在各个动作组的环境预检测结果处查看指定动作组的资源检查情况。
- 环境检测不通过仍然可以执行演练,只是在演练过程中可能会有部分故障动作执行失败,由业务自行抉择。
注入与恢复
1、执行注入
在演练运行详情页,找到目标动作组,单击目标故障动作卡片上的执行按钮。
重试:如果注入动作运行失败,可点击重试按钮,重新执行故障注入动作。
刷新:如果读取注入动作结果超时,可点击刷新按钮,重新读取最新的注入结果。
2、查看详情
单击故障动作卡片本身(非执行按钮),右侧弹出侧边栏,可以查看执行详情。
执行日志:实时滚动显示故障注入或恢复的详细日志。
执行参数:回顾本次执行所使用的具体参数。
3、观测指标
切换到保护策略页签,查看当前生效的保护策略及其状态。
切换到监控指标页签,可以查看本次演练关联的监控指标。
4、故障恢复
在演练运行详情页,在目标动作组中找到标识为恢复的动作卡片,点击执行按钮。
重试:如果恢复动作运行失败,可点击重试按钮,重新执行故障恢复动作。
刷新:如果读取恢复结果超时,可点击刷新按钮,重新读取最新的恢复结果。
跳过:在人工确认影响的情况下,可点击跳过按钮,系统将忽略故障动作的恢复结果,继续推进演练流程。
记录并结束
1、记录结论
在演练运行详情页顶部,单击演练结论按钮。在弹出的对话框中,详细记录本次演练的实验结论(如演练收益、发现问题及改进建议等)。
2、结束演练
在演练运行详情页顶部,单击结束演练按钮,完成本次实验。
说明
- 到达实验超时时间,保护策略会自动尝试结束演练。
- 结束演练时,系统会自动恢复所有尚未恢复的故障动作。恢复过程是异步操作,可以在界面观察恢复状态,待所有动作均恢复完成后,即可最终完成本次实验。