如何查看故障注入的详细日志?
可以在两个层级查看日志,以了解不同的执行细节:
演练实验级别:
导航至 演练管理 > 执行记录 > 详情 页面。
在页面右上角,单击演练日志,可以查看本次演练的总体流程和高级别事件。
具体动作级别:
在演练运行详情页的动作列表中,单击具体的故障动作卡片(无论是注入还是恢复)。
在右侧弹出的侧边栏中,单击查看日志,可以获取该动作最详细的执行日志。
动作组、并行动作、动作之间的关系?
它们构成了一个清晰的层级关系,用于编排从简单到复杂的各种演练场景:
动作组:
场景级的容器。一个动作组代表一个完整的故障场景,例如“模拟数据中心A网络故障”。它可以包含多个并行的动作,并且可以针对不同类型的资源进行编排(如同时对Redis和云主机注入故障)。在一个演练任务中,不同的动作组之间是并行执行的。并行动作:
并发执行的单元。在一个动作组内部,可以创建多个并行动作块。这些块之间是并行执行的,用于模拟同时发生的多个故障。动作:
最小的执行单元。它代表一个具体的故障动作(如CPU高负载、网络延迟)。在一个并行动作块内部,可以添加多个动作,它们之间是串行执行的,用于模拟一个有先后顺序的故障链条。
多个演练实验可以同时执行吗?
同一应用下:不可以。为了避免相互干扰和结果混淆,同一应用下,在任意时刻只能执行一个演练任务。因此,必须等待上一个演练任务结束后,才能发起新的演练。
不同应用下:可以。不同应用下的演练任务相互独立,可以同时执行。
演练实验会自动停止吗?
会。每个演练任务在创建时都会配置一个“演练超时时间”,这是一个内置的超时保护机制。
当演练运行时长达到该阈值时,故障演练服务会自动触发演练的停止和故障恢复流程。当然,用户可以随时在演练运行详情页手动结束演练。
为什么手动结束演练,但演练没有立即停止?
因为系统正在执行必要的“清理和恢复”工作。
点击“结束演练”后,系统会立即开始自动恢复所有已注入的故障。这是一个异步过程,在所有故障都成功恢复之前,演练状态不会变为“已结束”。
可以在演练运行详情页顶部的状态栏中观察演练所处的环节,当“演练结论”环节亮起时,才表明演练已完全结束。
故障注入失败怎么办?
在演练运行详情页,单击失败的故障动作卡片,在右侧弹出的侧边栏中查看日志,了解失败的具体原因。
根据日志提示进行排查和处理(例如,检查探针状态、网络连通性或权限)。
处理完毕后,可以对该动作节点单击重试,尝试重新注入故障。
如果确认不具备故障注入的条件,注入失败未产生实际影响,可忽略该动作。
故障恢复失败怎么办?
检查日志:与注入失败类似,先通过查看日志了解恢复失败的原因。
平台重试:单击重试按钮,尝试让平台再次自动恢复。
手动恢复:如果平台重试无效,您需要根据故障类型进行手动恢复。例如:
对于主机宕机,请到云主机控制台对机器执行重启操作。
对于DNS篡改,请登录到云主机手动编辑并还原 /etc/hosts 文件。
对于大多数组件故障,在对应云产品控制台对实例执行重启通常是有效的恢复手段。
确认跳过:如果确认通过手动方式恢复了故障,且业务已恢复正常,可以回到故障演练控制台,对该恢复节点单击跳过按钮,系统将忽略该故障动作的恢复结果,继续推进演练流程。请务必谨慎使用此功能。