页面下方会显示实时的训练进度,训练日志和loss变化情况。 如果您的训练样本较多,单张A10显卡的24G显存很容易因为无法承载,而导致报错"CUDA out of memory"。此时,您需要将云主机变配到显存更大的机型规格,并开启DeepSpeed stage3进行模型参数分片,如下图所示。 同时,您还需要修改默认DeepSpeed配置中的部分参数,以保证训练正常进行。
开始迁移后,源端服务器中的迁移Agent会向主机迁移服务获取迁移指令并且执行,执行时迁移Agent会识别源端服务器分区的有效块,并把有效块传输到目的端服务器对应分区,全量迁移完成后自动进行持续同步。持续同步过程中,您可以在不影响业务的时间内,停止源端服务器上的业务,然后“启动目的端”。 Linux 全量迁移与同步 如果源端服务器是Linux OS且通过迁移可行性校验后,您可以在主机迁移服务界面上配置目的端并开始迁移。