页面下方会显示实时的训练进度,训练日志和loss变化情况。 如果您的训练样本较多,单张A10显卡的24G显存很容易因为无法承载,而导致报错"CUDA out of memory"。此时,您需要将云主机变配到显存更大的机型规格,并开启DeepSpeed stage3进行模型参数分片,如下图所示。 同时,您还需要修改默认DeepSpeed配置中的部分参数,以保证训练正常进行。
场景描述 包含全量迁移/同步的任务,在进行全量迁移时失败,错误日志信息包含“Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server”。 关键词 Communications link failure 可能原因 访问源库或目标库时建立连接失败。