Qwen-7B-Chat 本文为您详细介绍Qwen7BChat模型。 模型简介 通义千问7B(Qwen7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen7B的基础上,使用对齐机制打造了基于大语言模型的AI助手Qwen7BChat。 使用场景 Qwen系列模型的开发和开源为自然语言处理领域带来了新的可能性,尤其是在需要处理大量数据和复杂语言任务的场景中。主要使用场景包括对话系统、文本生成以及内容创作等。 评测效果 对于Qwen7BChat模型,常规的中文理解(CEval)、英文理解(MMLU)、代码(HumanEval)和数学(GSM8K)以及长序列任务等权威任务的评测结果如下。 注意 由于硬件和框架造成的舍入误差,复现结果如有波动属于正常现象。 中文评测(Chinese Evaluation) 在CEval验证集上,Qwen7BChat模型的0shot & 5shot准确率结果如下: Model Avg. Acc. LLaMA27BChat 31.9 LLaMA213BChat 36.2 LLaMA270BChat 44.3 ChatGLM26BChat 52.6 InternLM7BChat 53.6 Baichuan27BChat 55.6 Baichuan213BChat 56.7 Qwen7BChat (original) (0shot) 54.2 Qwen7BChat (0shot) 59.7 Qwen7BChat (5shot) 59.3 Qwen14BChat (0shot) 69.8 Qwen14BChat (5shot) 71.7 CEval测试集上,Qwen7BChat模型的zeroshot准确率结果如下: Model Avg. STEM Social Sciences Humanities Others ChineseAlpacaPlus13B 41.5 36.6 49.7 43.1 41.2 ChineseAlpaca27B 40.3 ChatGLM26BChat 50.1 46.4 60.4 50.6 46.9 Baichuan13BChat 51.5 43.7 64.6 56.2 49.2 Qwen7BChat (original) 54.6 47.8 67.6 59.3 50.6 Qwen7BChat 58.6 53.3 72.1 62.8 52.0 Qwen14BChat 69.1 65.1 80.9 71.2 63.4 在7B规模模型上,经过人类指令对齐的Qwen7BChat模型,准确率在同类相近规模模型中仍然处于前列。