Snapckpt- CheckPoint 加速 使用方法 1、安装Snapckpt Snapckpt Python包下载地址:< 1. 下载后进入到工程根目录 2. 安装命令: plaintext python3 setup.py build && python3 setup.py install 至此,Snapckpt的软件包安装完成,可以开始使用(具体使用方法见“Snapckpt使用方法”章节)。 2、Snapckpt使用方法 Megatron模式使用方法 在使用MegatronLM训练框架训练模型时,您可以使用 snapckpt.megatrondistckpt.savecheckpoin 和 snapckpt.megatrondistckpt.loadcheckpoint 替换原生MegatronLM的 megatron.checkpointing.savecheckpoint 和 megatron.checkpointing.loadcheckpoint。 plaintext from megatron.checkpointing import savecheckpoint from snapckpt.megatrondistckpt import savecheckpoint from megatron.checkpointing import loadcheckpoint from snapckpt.megatrondistckpt import loadcheckpoint Deepspeed模式使用方法 首先,需要初始化Snapckpt的DeepSpeedCheckpointer,初始化方式如下: plaintext from snapckpt.deepspeed import( DeepSpeedCheckpointer, StorageType, ) checkpointer DeepSpeedCheckpointer(model, checkpointdir) 初始化后,您可以使用 checkpointer.savecheckpoint 和 checkpointer.loadcheckpoint 替换原生Deepspeed的 savemodel 和 loadcheckpoint。 plaintext savemodel(checkpointdir) checkpointer.savecheckpoint(checkpointdir, tagstep, storagetypeStorageType.MEMORY) checkpointer.savecheckpoint(checkpointdir, tagstep, storagetypeStorageType.DISK) loadcheckpoint(model, checkpointdir) checkpointer.loadcheckpoint(checkpointdir) 性能参考 以Deepseek R1 Distill Qwen 14B模型,单机八卡运行环境为例,相较于同步断点保存而言,Snapckpt的性能提升测试参考如下: 模式 全参微调 LoRA微调 预训练 Megatron 24倍 10倍 22倍 Deepspeed 19倍 5倍 12倍