global batch size:全局批处理大小,在大模型加速框架Megatron下,该值的增大不会导致显存溢出的问题,但由于梯度累积的存在,其值越大,模型训练性能会降低。一般来说,小模型使用的gbs值可以小一点,大模型的gbs值一般设置成64及以上,gbs的设置一般是2的次幂,比如2,4,8,16,32等。seq lens:序列长度,其取值应该大于等于训练数据里面最长的那个,以防止数据被截断。
global batch size:全局批处理大小,在大模型加速框架Megatron下,该值的增大不会导致显存溢出的问题,但由于梯度累积的存在,其值越大,模型训练性能会降低。一般来说,小模型使用的gbs值可以小一点,大模型的gbs值一般设置成64及以上,gbs的设置一般是2的次幂,比如2,4,8,16,32等。seq lens:序列长度,其取值应该大于等于训练数据里面最长的那个,以防止数据被截断。