一、背景
为验证系统的健壮性,我们采用混沌工程质量蓝军来对系统进行故障注入,验证在网络、机器内存、IO、CPU等异常指标情况下系统的表象是否符合预期,提升系统的容错能力以及健壮性。
二、实践
在使用混沌工程进行异常注入演练前,首先要确保平台与被测服务的网络是打通的,在明确了该事宜后,按如下步骤进行配置。
1、安装探针
进入混沌工程可视化平台-探针管理,如被测服务可与外网打通,可以使用自动安装探针的方式进行配置。需要填写的信息如下:
填写完成后点击安装,直接可以完成探针的安装。
也可以选择手工安装的方式进行探针的安装,示例如下:
注:如被测环境无法进行wget操作,可自行下载压缩包后,上传到被测机器上执行上述命令即可。
探针安装完成后会在探针管理页面出现如下信息展示:
以上完成了探针的安装。
2、新建演练
可从演练场景-创建演练,选择期望进行的演练进行创建
进入演练配置页面如下:
填写基本信息,选择演练对象,应用,应用分组(可对齐在探针添加时选择的应用及分组),可加载到该分组下对应的机器列表,选择相应的期望进行实验的机器,以下配置CPU演练参数
可设置自动恢复时间、定时运行机制,可自行配置,配置完成后可在我的空间下查看当前演练配置,如下图所示:
点击图中的演练按钮即可触发演练。
3、执行演练
点击已配置的演练项的演练按钮,触发演练。
可登到相应的被测机器上查看发起演练后的资源变化。
如下图是演练前的系统资源占用
触发演练后的资源占用如下,CPU已逐步增加
此时可对机器上的服务进行基于该资源占用的服务可用性操作。
达到指定的演练时长后会触发演练停止动作。查看机器资源占用如下,已恢复正常。
以上为一个CPU达到指定阈值的异常注入配置及执行的示例。如需配置其他的异常注入,可在新建演练操作时,选择期望的类型进行配置后触发演练即可,在此不再赘述。
三、总结
当前平台已具备基本的CPU、内存、磁盘、网络、应用进程、容器资源的故障注入,可结合需要进行异常注入配置演练,验证系统的处理是否符合预期。