页面下方会显示实时的训练进度,训练日志和loss变化情况。如果您的训练样本较多,单张A10显卡的24G显存很容易因为无法承载,而导致报错"CUDA out of memory"。此时,您需要将云主机变配到显存更大的机型规格,并开启DeepSpeed stage3进行模型参数分片,如下图所示。同时,您还需要修改默认DeepSpeed配置中的部分参数,以保证训练正常进行。
RDS for PostgreSQL有部分增强特性(如Failover Slot等),使用云上的物理备份恢复到开源自建数据库时执行部分SQL报错,需要将用到的增强特性删除,详见常见问题。本地自建数据库的操作系统与云数据库的操作系统可能不一致,而PostgreSQL数据库部分索引的排序规则依赖操作系统,恢复到自建数据库后需要重建索引,需要重建的索引排查方法见官方文档。