DeepSeek-R1 本文为您详细介绍DeepSeekR1模型。 模型简介 DeepSeekR1是一款具有671B参数大小的创新性大语言模型,该模型基于transformer架构,通过对海量语料数据进行预训练,结合注意力机制,经过监督微调、人类反馈的强化学习等技术进行对齐,具备语义分析、计算推理、问答对话、篇章生成、代码编写等多种能力。R1模型在多个NLP基准测试中表现出色,具备较强的泛化能力和适应性。 使用场景 DeepSeekR1 模型适用于多种场景,包括但不限于: ●文本生成:如自动写作、内容创作、对话生成等。 ●文本分类:如情感分析、主题分类、垃圾邮件检测等。 ●机器翻译:支持多语言之间的高质量翻译。 ●问答系统:用于智能客服、知识库问答等场景。 ●信息抽取:如实体识别、关系抽取、事件抽取等。 评测效果 在对话模型典型任务方面的评测效果如下: Category Benchmark (Metric) Claude3.5Sonnet1022 GPT4o 0513 DeepSeek V3 OpenAI o1mini OpenAI o11217 DeepSeek R1 Architecture MoE MoE Activated Params 37B 37B Total Params 671B 671B English MMLU (Pass@1) 88.3 87.2 88.5 85.2 91.8 90.8 MMLURedux (EM) 88.9 88.0 89.1 86.7 92.9 MMLUPro (EM) 78.0 72.6 75.9 80.3 84.0 DROP (3shot F1) 88.3 83.7 91.6 83.9 90.2 92.2 IFEval (Prompt Strict) 86.5 84.3 86.1 84.8 83.3 GPQADiamond (Pass@1) 65.0 49.9 59.1 60.0 75.7 71.5 SimpleQA (Correct) 28.4 38.2 24.9 7.0 47.0 30.1 FRAMES (Acc.) 72.5 80.5 73.3 76.9 82.5 AlpacaEval2.0 (LCwinrate) 52.0 51.1 70.0 57.8 87.6 ArenaHard (GPT41106) 85.2 80.4 85.5 92.0 92.3 Code LiveCodeBench (Pass@1COT) 33.8 34.2 53.8 63.4 65.9 Codeforces (Percentile) 20.3 23.6 58.7 93.4 96.6 96.3 Codeforces (Rating) 717 759 1134 1820 2061 2029 SWE Verified (Resolved) 50.8 38.8 42.0 41.6 48.9 49.2 AiderPolyglot (Acc.) 45.3 16.0 49.6 32.9 61.7 53.3 Math AIME 2024 (Pass@1) 16.0 9.3 39.2 63.6 79.2 79.8 MATH500 (Pass@1) 78.3 74.6 90.2 90.0 96.4 97.3 CNMO 2024 (Pass@1) 13.1 10.8 43.2 67.6 78.8 Chinese CLUEWSC (EM) 85.4 87.9 90.9 89.9 92.8 CEval (EM) 76.7 76.0 86.5 68.9 91.8 CSimpleQA (Correct) 55.4 58.7 68.0 40.3 63.7