概述
演练是指通过向系统的特定目标注入指定故障,并观察其影响,从而验证和提升系统可用性与韧性的过程。
新建演练
在目标应用的演练管理页面,单击新建演练按钮,即可开始编排一个新的演练任务。
1、填写基本信息
在基本信息页面,填写演练名称、演练描述和关联应用等。
说明
- 配置关联应用可在当前演练任务中选择关联应用的资源进行故障演练。
2、配置演练对象
单击下一步进入演练对象配置页面。在此页面,可以配置一个或多个动作组,它们是故障注入的基本流程单元。
2.1 配置动作组
填写动作组名称和描述。
单击动作组右上角的复制图标,可以快速克隆出一个新的动作组。
说明
- 一个演练任务可创建多个动作组。
2.2 添加实例到动作组
为动作组选择一个资源类型(如弹性云主机)。
单击添加实例,在弹出的对话框中选择需要执行演练的资源对象。
说明
- 同一个动作组内仅可针对同一资源类型进行故障注入操作,不同资源类型可选择的实例个数也有不同的限制。
2.3 添加故障动作到动作组
在动作列表中单击立即添加,选择需要注入的故障动作。
在弹出的对话框中,配置该故障动作的具体参数。
2.4 编排与并行设置
串行编排:在一个并行动作块内,可以单击立即添加多次,以添加多个串行动作。
并行编排:
单击添加并行动作,可以在同一个动作组内创建多个并行执行的动作块。
可以创建多个动作组,不同的动作组之间同样并行执行。
2.5 配置高级设置
全部注入:向动作组内所有选定的实例注入故障。
按比例随机注入:根据设定的百分比,在选定的实例中随机选择目标注入故障。
按数量随机注入:根据设定的数量,在选定的实例中随机选择目标注入故障。
执行方式:
手动推进:手动控制整个演练流程的推进,执行故障注入或恢复节点的时机由您决定。
自动推进:依次执行动作组内的故障注入节点,到达设定的持续时间后,自动执行故障恢复节点。
说明
- 自动推进模式下,演练出现异常会切换到手动推进模式,您仍然可以手动执行剩余节点。
3、进行全局配置
单击下一步进入全局配置页面。
配置监控指标:为本次演练关联的应用添加监控指标,方便在演练时观测。
设置演练超时时间:设定一个总体超时时长,系统会自动为当前演练创建一个超时保护策略。
配置完成后,单击完成按钮,完成演练任务创建。
4、实验角色配置
单击下一步进入角色配置页面。点击添加按钮,为不同的账号分配不同的实验角色:
管理者:拥有对实验的完全控制权。
观察者:只读角色,仅可查看实验及演练相关信息。
说明
- 如果您未分配任何实验角色,默认当前登录账号成为实验的管理者。
编辑演练
在演练管理列表中找到需要编辑的演练任务,单击操作列的 更多 > 编辑。
根据页面指引修改演练的基本信息、演练对象和全局配置。
保存后返回演练管理列表,确认相关信息已更新。
删除演练
在演练管理列表中找到需要删除的演练任务,单击操作列的 更多 > 删除。
在弹出的确认对话框中完成删除操作。
返回演练管理列表,确认该演练任务已被成功移除。