故障演练服务的使用过程遵循创建应用-纳管资源-执行演练-观测结果的基本流程。
下面以分布式缓存服务Redis版实例的CPU高负载场景为例,介绍如何进行一次完整的故障演练实验。
一、创建环境
登录应用高可用控制台,进入故障演练服务,打开环境概览页面,单击创建环境,根据页面提示完成环境创建。
二、创建应用
打开应用列表页面,单击创建应用。
三、添加资源
打开应用资源页面,在资源类型页签中选择分布式缓存服务Redis版,然后单击添加资源。在弹出的对话框中选择目标实例,单击确定即可完成资源添加。
四、添加监控指标
打开监控指标页面,选择云产品监控页签,单击添加指标。在对话框中选择分布式缓存服务Redis版,然后选择节点指标下的主机CPU使用率,单击确定将选定的指标添加到当前应用。
五、创建演练任务
打开演练管理页面,单击新建演练。
1. 填写基本信息
进入基本信息填写页面,填写演练名称、演练描述和关联应用等。
说明
配置关联应用可在当前演练任务中选择关联应用的资源进行故障演练。
2. 配置演练对象
单击下一步,进入演练对象配置页面,进行动作组配置,并添加故障动作。
添加实例
在动作组中选择资源类型为分布式缓存服务Redis版,单击添加实例,选择期望进行故障演练的资源。
说明
- 一个动作组内不同资源类型可选择的实例个数有不同的限制,分布式缓存服务Redis版在一个动作组内仅支持选择一个实例。
配置动作
单击动作列表中的立即添加,在列表中选择CPU高负载故障动作,并进行参数配置。
说明
- 同一个动作组内仅可针对同一资源类型进行故障注入操作。
3. 进行全局配置
单击下一步,进入全局配置页面,进行监控指标和演练超时时间等配置。
说明
- 一个演练中,每个应用需要分别添加期望观察的监控指标。
六、执行演练
打开演练管理页面,找到目标演练任务,单击执行演练。
进入执行记录页面,单击发起新演练。
在新发起的演练记录上单击详情,进入演练运行详情页面。
在详情页面的演练动作组中,找到CPU高负载故障动作卡片,单击执行。
点击CPU高负载故障动作卡片,可以查看动作参数和执行详情。
进行故障恢复时,在动作组中选择带有恢复标记的卡片,并单击执行。
说明
环境检测:发起演练时,系统会对所有演练资源进行故障注入依赖检查,可在导航栏查看所有动作组资源的检查情况,也可在各个动作组的环境预检测结果处查看指定动作组的资源检查情况。环境检测不通过仍然可以执行演练,只是在演练过程中可能会有部分故障动作执行失败,由业务自行抉择。
保护策略:发起演练时,系统自动为当前演练创建一个超时保护策略,实验未结束且持续超过设置的时间后,会自动结束演练并回滚已经注入的故障。
七、结束演练
在演练运行详情页面,单击导航栏的结束演练按钮,结束当前演练。
单击导航栏的演练结论按钮,填写实验总结信息。
说明
- 结束演练时,系统会自动恢复所有尚未恢复的故障动作。恢复过程是异步操作,可以在界面观察恢复状态,待所有动作均恢复完成后,即可最终完成本次实验。