模型 | 模型简介 | 模型ID |
---|---|---|
DeepSeek-R1-昇腾版 | DeepSeek-R1 是一款具有创新性的大语言模型,由杭州深度求索人工智能基础技术研究有限公司开发。该模型基于 transformer 架构,通过对海量语料数据进行预训练,结合注意力机制,能够理解和生成自然语言。它经过监督微调、人类反馈的强化学习等技术进行对齐,具备语义分析、计算推理、问答对话、篇章生成、代码编写等多种能力。R1 模型在多个 NLP 基准测试中表现出色,具备较强的泛化能力和适应性。 | 4bd107bff85941239e27b1509eccfe98 |
DeepSeek-R1-昇腾版2 | DeepSeek-R1 是一款具有创新性的大语言模型,该模型基于 transformer 架构,通过对海量语料数据进行预训练,结合注意力机制,经过监督微调、人类反馈的强化学习等技术进行对齐,具备语义分析、计算推理、问答对话、篇章生成、代码编写等多种能力。R1 模型在多个 NLP 基准测试中表现出色,具备较强的泛化能力和适应性。 | 7ba7726dad4c4ea4ab7f39c7741aea68 |
DeepSeek-V3-昇腾版 | DeepSeek-V3是DeepSeek团队开发的新一代专家混合(MoE)语言模型,共有671B参数,在14.8万亿个Tokens上进行预训练。该模型采用多头潜在注意力(MLA)和DeepSeekMoE架构,继承了DeepSeek-V2模型的优势,并在性能、效率和功能上进行了显著提升。 | 9dc913a037774fc0b248376905c85da5 |
DeepSeek-R1-Distill-Llama-70B | DeepSeek-R1-Distill-Llama-70B是基于Llama架构并经过强化学习和蒸馏优化开发的高性能语言模型。该模型融合了DeepSeek-R1的先进知识蒸馏技术与Llama-70B模型的架构优势。通过知识蒸馏,在保持较小参数规模的同时,具备强大的语言理解和生成能力。 | 515fdba33cc84aa799bbd44b6e00660d |
DeepSeek-R1-Distill-Qwen-32B | DeepSeek-R1-Distill-Qwen-32B是通过知识蒸馏技术从DeepSeek-R1模型中提炼出来的小型语言模型。它继承了DeepSeek-R1的推理能力,专注于数学和逻辑推理任务,但体积更小,适合资源受限的环境。 | b383c1eecf2c4b30b4bcca7f019cf90d |
Baichuan2-Turbo | Baichuan-Turbo系列模型是百川智能推出的大语言模型,采用搜索增强技术实现大模型与领域知识、全网知识的全面链接。 | 43ac83747cb34730a00b7cfe590c89ac |
Qwen2-72B-Instruct | Qwen2 是 Qwen 大型语言模型的新系列。Qwen2发布了5个尺寸的预训练和指令微调模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。这是指令调整的 72B Qwen2 模型,使用了大量数据对模型进行了预训练,并使用监督微调和直接偏好优化对模型进行了后训练。 | 2f05789705a64606a552fc2b30326bba |
ChatGLM3-6B | ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了更强大的基础模型、更完整的功能支持、更全面的开源序列几大特性。 | 7450fa195778420393542c7fa13c6640 |
TeleChat-12B | 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,TeleChat-12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。TeleChat-12B-bot在模型结构、训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比TeleChat-7B-bot均有大幅提升。 | fdc31b36028043c48b15131885b148ce |
Llama3-8B-Instruct | Meta 开发并发布了 Meta Llama 3 系列大型语言模型 (LLM),包含 8B 和 70B 两种参数大小,Llama3-8B-Instruct 是经过指令微调的版本,针对对话用例进行了优化,在常见的行业基准测试中优于许多可用的开源聊天模型。 | bda59c34e4424598bbd5930eba713fbf |
Llama3-70B-Instruct | Meta 开发并发布了 Meta Llama 3 系列大型语言模型 (LLM),包含 8B 和 70B 两种参数大小,Llama3-70B-Instruct 是经过指令微调的版本,针对对话用例进行了优化,在常见的行业基准测试中优于许多可用的开源聊天模型。 | 6192ed0cb6334302a2c32735dbbb6ce3 |
Qwen-VL-Chat | Qwen-VL-Chat模型是在阿里云研发的大规模视觉语言模型 Qwen-VL 系列的基础上,使用对齐机制打造的视觉AI助手,该模型有更优秀的中文指令跟随,支持更灵活的交互方式,包括多图、多轮问答、创作等能力。 | e8c39004ff804ca699d47b9254039db8 |
StableDiffusion-V2.1 | StableDiffusion-V2.1是由 Stability AI 公司推出的基于深度学习的文生图模型,它能够根据文本描述生成详细的图像,同时也可以应用于其他任务,例如图生图,生成简短视频等。 | 40f9ae16e840417289ad2951f5b2c88f |
Deepseek-V2-Lite-Chat | Deepseek-V2-Lite-Chat是一款强大的开源专家混合(MoE)语言聊天模型,具有16B参数,2.4B活动参数,使用5.7T令牌从头开始训练,其特点是同时具备经济的训练和高效的推理。 | 0855b510473e4ec3a029569853f64974 |
Qwen2.5-72B-Instruct | Qwen2.5系列发布了许多基本语言模型和指令调整语言模型,参数范围从0.5到720亿个参数不等。Qwen2.5-72B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。 | d9df728b30a346afb74d2099b6c209aa |
Gemma2-9B-IT | Gemma2-9B-IT是Google最新发布的具有90亿参数的开源大型语言模型的指令调优版本。模型在大量文本数据上进行预训练,并且在性能上相较于前一代有了显著提升。该版本的性能在同类产品中也处于领先地位,超过了Llama3-8B和其他同规模的开源模型。 | 4dae2b9727db46b7b86e84e8ae6530a9 |
Llama3.2-3B-Instruct | Meta Llama3.2多语言大型语言模型(LLMs)系列是一系列预训练及指令微调的生成模型,包含1B和3B参数规模。Llama3.2指令微调的纯文本模型专门针对多语言对话应用场景进行了优化,包括代理检索和摘要任务。它们在通用行业基准测试中超越了许多可用的开源和闭源聊天模型。这是Llama3.2-3B-Instruct版本。 | f7d0baa95fd2480280214bfe505b0e2e |
ChatGLM3-6B-32K | ChatGLM3-6B-32K模型在ChatGLM3-6B的基础上进一步强化了对于长文本的理解能力,能够更好的处理最多32K长度的上下文。具体对位置编码进行了更新,并设计了更有针对性的长文本训练方法,在对话阶段使用 32K 的上下文长度训练。 | 98b6d84f6b15421886d64350f2832782 |
CodeGemma-7B-IT | CodeGemma是构建在Gemma之上的轻量级开放代码模型的集合。CodeGemma-7B-IT模型是CodeGemma系列模型之一,是一种文本到文本和文本到代码的解码器模型的指令调整变体,具有70亿参数,可用于代码聊天和指令跟随。 | fa8b78d2db034b6798c894e30fba1173 |
Qwen2.5-Math-7B-Instruct | Qwen2.5-Math系列是数学专项大语言模型Qwen2-Math的升级版。系列包括1.5B、7B、72B三种参数的基础模型和指令微调模型以及数学奖励模型Qwen2.5-Math-RM-72B,Qwen2.5-Math-7B-Instruct的性能与Qwen2-Math-72B-Instruct相当。 | ea056b1eedfc479198b49e2ef156e2aa |
DeepSeek-Coder-V2-Lite-Instruct | DeepSeek-Coder-V2-Lite-Instruct是一款强大的开源专家混合(MoE)语言聊天模型,具有16B参数,2.4B活动参数。该模型基于DeepSeek-V2进一步预训练,增加了6T Tokens,可在特定的代码任务中实现与GPT4-Turbo相当的性能。 | f23651e4a8904ea589a6372e0e860b10 |
BGE-m3 | BGE-m3是智源发布的通用语义向量模型BGE家族新成员,支持超过100种语言,具备领先的多语言、跨语言检索能力,全面且高质量地支撑“句子”、“段落”、“篇章”、“文档”等不同粒度的输入文本,最大输入长度为8192,并且一站式集成了稠密检索、稀疏检索、多向量检索三种检索功能,在多个评测基准中达到最优水平。 | 46c1326f63044fbe80443af579466fe3 |
DeepSeek-V3-0324 | DeepSeek-V3-0324是DeepSeek团队于2025年3月24日发布的DeepSeek-V3语言模型的新版本。是一个专家混合(MoE)语言模型,总参数为6710亿个,每个Token激活了370亿个参数。0324版本开创了一种用于负载均衡的辅助无损策略,并设定了多令牌预测训练目标以提高性能。该模型版本在几个关键方面比其前身DeepSeek-V3有了显著改进。 | 11bd888a35434486bf209066c7dad0ee |
Qwen2-7B-Instruct | Qwen2-7B-Instruct是 Qwen2大型语言模型系列中覆盖70亿参数的指令调优语言模型,支持高达 131,072 个令牌的上下文长度,能够处理大量输入。 | 0e97efbf3aa042ebbaf0b2d358403b94 |
Qwen3-235B-A22B | Qwen3-235B-A22B是Qwen3系列大型语言模型的旗舰模型。拥有2350多亿总参数和220多亿激活参数。在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。 | 35af69e0d4af492ca366cf2df03c3172 |
Qwen3-32B | Qwen3是Qwen系列中最新一代的大型语言模型,提供一整套密集(Dense)模型和混合专家(MoE)模型。Qwen3基于广泛的培训而构建,在推理、指令遵循、代理功能和多语言支持方面取得了突破性的进步。Qwen3-32B是参数量为32.8B的密集(Dense)模型。 | 3836b8d2ec5d46fc94cc7891064940aa |
QwQ-32B | QwQ-32B是一款拥有 320 亿参数的推理模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。该模型集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。 | b9293363bfbf4db2bccb839ff4300d17 |
Qwen2.5-VL-72B-Instruct | Qwen2.5-VL-72B-Instruct模型是阿里云通义千问开源的全新视觉模型,具有720亿参数规模,以满足高性能计算场景的需求。目前共推出3B、7B、32B和72B四个尺寸的版本。这是旗舰版Qwen2.5-VL-72B的指令微调模型,在13项权威评测中夺得视觉理解冠军,全面超越GPT-40与Claude3.5。 | 88003ac1ca7a4e4e8efa7caee648323b |
DeepSeek-R1-0528 | DeepSeek-R1-0528是DeepSeek团队推出的最新版模型。模型基于 DeepSeek-V3-0324 训练,参数量达660B。该模型通过利用增加的计算资源并在后训练期间引入算法优化机制,显著提高了其推理和推理能力的深度。该模型在各种基准测试评估中表现出出色的性能,包括数学、编程和一般逻辑。它的整体性能现在接近 O3 和 Gemini 2.5 Pro 等领先机型。 | ff3f5c450f3b459cbe5d04a5ea9b2511 |
API列表
更新时间 2025-09-08 14:07:20
最近更新时间: 2025-09-08 14:07:20
平台提供了以下大模型API能力。