Snapckpt加速 值得注意的是,检查点操作耗时与模型参数量呈正相关关系,当面对参数量达百亿甚至千亿级别的大模型时,每次检查点保存往往需要耗费数分钟至十余分钟不等。特别是在使用Megatron-LM框架或原生PyTorch进行训练时,检查点保存过程会强制暂停训练任务,导致宝贵的计算资源被闲置。因此,开发高效的检查点机制以降低时间成本和资源浪费,已成为当前大规模模型训练亟待解决的关键问题。Snapckpt采用多阶段异步断点存储机制,降低断点存储耗时,减少训练中断带来的影响,从而提升训练速度,提升计算资源有效利用率。