12B 本文为您详细介绍星辰语义大模型TeleChat12B。 模型简介 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,TeleChat12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。TeleChat12Bbot在模型结构、训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比TeleChat7Bbot均有大幅提升。 使用场景 TeleChat模型不仅支持deepspeed微调和多轮对话能力,还在外推能力和长文生成方面展现出优异表现。其开源版本包括12B模型的int8和int4量化版本,可广泛应用于多种Al场景,如智能对话、长文本生成等。 评测效果 TeleChat模型与同规模的其他模型相比,在评测效果方面也展现出了较好的表现。其评测集广泛涵盖了MMLU、CEval、GAOKAO、AGIEval、CMMLU、GSM8K、MATH、HumanEval、CHID等多个数据集,这些评测集全面评估了TeleChat模型在自然语言理解、知识问答、数学计算和推理、代码生成等多个方面的能力。 评测结果如下 Model MMLU CEval CMMLU AGIEval GAOKAO GSM8K MATH HumanEval CSL CHID EPRSTMT BBH HellaSwag 5shot 5shot 5shot zeroshot zeroshot 4shot 4shot zeroshot zeroshot zeroshot zeroshot 3shot zeroshot LLaMA27Bchat 46.2 31.9 31.5 28.5 16.1 26.3 3.9 12.2 58.8 44.1 57.5 35.6 74.1 LLaMA213Bchat 54.6 36.2 38.7 32.3 18.6 29.6 5.0 18.9 61.2 48.0 59.4 40.2 78.2 ChatGLM26Bchat 45.9 52.6 49.3 39.0 46.4 28.8 6.5 11.0 61.2 57.9 71.2 32.7 57.0 ChatGLM36Bchat 51.9 53.8 54 38.9 49.3 56.7 18.7 61 65.6 63.4 85 44.6 62.7 Baichuan27Bchat 52.8 55.6 54.0 35.3 39.7 32.8 6 13.4 60 75.2 87.5 35.8 61.6 Baichuan213Bchat 57 56.7 58.4 40 51.4 55.3 8.6 17.7 63.1 78.2 87.5 49.9 66.9 Qwen7Bchat 56.6 59.3 59.5 41.3 63.3 52.5 10.3 26.2 63.1 72.3 88.8 46.9 59.9 Qwen14Bchat 66.4 71.7 70.0 47.3 76.5 61.0 26.8 36.6 55.6 72.3 91.2 58.0 65.2 TeleChat1Bchat 36.5 53.3 42.1 32.1 34.5 36.8 7.2 12.8 45.62 69.8 87.5 37.4 29.6 TeleChat7Bchat 60.5 64.6 64.3 46.8 59 36.7 10.3 20.1 66.8 88.0 87.5 19.5 36.7 TeleChat12Bchat 73.3 66.6 74.2 51.7 53.1 57.2 16.0 22.0 60.6 83.2 86.3 52.2 71.5 说明 :MMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT等数据集均基于OpenCompass平台提供的评测方法进行评估。对于对比模型,我们同时参考了官方汇报的结果以及OpenCompass平台的评估结果,以确保评估的全面性和公正性。此外,中电信在评测MMLU与CEval榜单时,采用了自己的评测脚本,具体方法可参见 evaluation/文件夹内的相关文档。
来自: