断点续训 本文旨在向您介绍训推服务平台断点续训的功能,支持对英伟达和升腾芯片多个故障场景的断点续训。 产品背景 大模型训练过程往往比较长,根据业界数据,平均约两天,大模型训练会中断一次,经常遇到的问题例如: 程序出现故障 节点出现故障 loss数据恶化,需要手动暂停,调参重训 服务器故障、网络中断、开发平台故障等 断点续训过程需要排查节点、隔离节点、重新启动上一次CKPT,浪费了资源和训练时间,是大模型训练的重要痛点之一。针对这一问题,平台提供了断点续训能力并支持配置客户需要的策略。 断点续训 平台对英伟达和昇腾芯片的节点故障、集群故障、程序故障等多种故障场景,支持故障感知、故障定位、故障修复。目前支持PyTorch、Mindspore框架。 支持以下故障类型: 网络故障:当网卡链接出现故障或状态异常(link status: DOWN)后,可正常触发重调度,实现断点续训 节点心跳故障:当节点因Label异常等原因导致心跳丢失后,可正常触发重调度,实现断点续训 节点Shutdown/Reboot故障:当节点被关闭或重启后,可正常触发重调度,实现断点续训 芯片PCIE故障:当节点发生芯片丢失等异常后,可正常触发重调度,实现断点续训 断点故障:当错误发生时断点正在写入,未正常完成保存即断点保存不完整时,可正常恢复至上一完整断点,实现断点续训