原因分析 通过查看错误日志发现需要的主机资源远超主机本身规格,实例主机规格是(96C256G),内存不够。 但是统计发现实例主机使用的资源是192G,与dcp计算的相差甚大。 解决方案 调整配置库的cgroup_cluster表数据,降低比例。 use dcp select over_sale_rate from cgroup_cluster update cgroup_cluster set over_sale_rate=200;
页面下方会显示实时的训练进度,训练日志和loss变化情况。 如果您的训练样本较多,单张A10显卡的24G显存很容易因为无法承载,而导致报错"CUDA out of memory"。此时,您需要将云主机变配到显存更大的机型规格,并开启DeepSpeed stage3进行模型参数分片,如下图所示。 同时,您还需要修改默认DeepSpeed配置中的部分参数,以保证训练正常进行。