12B 模型开源 支持DeepSpeed微调:我们支持使用DeepSpeed进行模型微调,并已经开源了基于DeepSpeed的训练代码。这段代码不仅便于用户进行高效的模型训练,还具备一系列优化特性。 Zero并行显存优化:开源的训练代码中集成了Zero并行显存优化技术,这一技术能够显著提升训练过程中的显存利用率,使得在有限资源下训练更大规模的模型成为可能。 集成FlashAttention2:我们的训练代码还集成了FlashAttention2,这是一种高效的注意力机制实现,能够进一步加速模型的训练过程,提高训练效率。 多轮对话能力支持:为了提升模型在复杂对话场景中的表现,我们开源了多轮数据构建方式,并针对多轮模型训练集成了特定的mask loss训练方式。这种训练方式有助于模型更好地聚焦多轮对话中的关键信息,从而提升问答效果和用户体验。 外推能力提升:我们开源了8K训练版本的模型,并采用了NTKaware外推和attention scaling外推方式。这些技术使得模型能够成功外推到96K的更大规模,显著增强了模型的外推能力和泛化性能。 长文生成能力:该模型还展现出了较强的长文生成能力,在多个长文写作任务上表现优异,包括但不限于工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报以及JD(职位描述)写作等。这些实际应用场景的验证,充分证明了模型在复杂文本生成任务中的强大实力和广泛应用潜力。
来自: