断点续训 支持以下故障类型: 网络故障:当网卡链接出现故障或状态异常(link status: DOWN)后,可正常触发重调度,实现断点续训 节点心跳故障:当节点因Label异常等原因导致心跳丢失后,可正常触发重调度,实现断点续训 节点Shutdown/Reboot故障:当节点被关闭或重启后,可正常触发重调度,实现断点续训 芯片PCIE故障:当节点发生芯片丢失等异常后,可正常触发重调度,实现断点续训 断点故障:当错误发生时断点正在写入,未正常完成保存即断点保存不完整时,可正常恢复至上一完整断点,实现断点续训