模型 | 模型简介 | 模型ID |
|---|---|---|
| Qwen3-30B-A3B | Qwen3是Qwen 系列最新一代大型语言模型,提供了一系列密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面实现了突破性进展 | 4efd64f3736d41a08f89db919dbe9c6b |
| BGE-Reranker-Large | BGE-Reranker-Large是北京智源人工智能研究院(BAAI)发布的一款基于深度学习的重排序模型,能够在中英文两种语言环境下,对检索结果进行优化,提高检索的准确性和相关性。与嵌入模型不同,Reranker使用question和document作为输入,直接输出相似度而不是嵌入。 | 0cb4c1ed8f374eadbe8bffe30bd039dc |
| Baichuan-M2-32B | Baichuan-M2-32B是百川 AI 的医疗增强推理模型,是百川发布的第二个医疗模型。该模型专为现实世界的医疗推理任务设计,在 Qwen2.5-32B的基础上引入了创新的大型验证系统。通过对真实医疗问题的领域特定微调,它在保持强大通用能力的同时实现了突破性的医疗性能。 | 9488c08cf627421aacdeb44bd9c2f95c |
| DeepSeek-V3.1 | DeepSeek-V3.1是一个支持思考模式和非思考模式的混合模型。是在 DeepSeek-V3.1-Base 的基础上进行后训练得到的,后者是通过两阶段长上下文扩展方法在原始 V3 基础检查点上构建的,遵循了原始 DeepSeek-V3 报告中概述的方法。通过收集额外的长文档并大幅扩展两个训练阶段来扩大的数据集。 | 37d1d0f4183b4800a44a69abf9102dfa |
| DeepSeek-V3-0324 | DeepSeek-V3-0324是DeepSeek团队于2025年3月24日发布的DeepSeek-V3语言模型的新版本。是一个专家混合(MoE)语言模型,总参数为6710亿个,每个Token激活了370亿个参数。0324版本开创了一种用于负载均衡的辅助无损策略,并设定了多令牌预测训练目标以提高性能。该模型版本在几个关键方面比其前身DeepSeek-V3有了显著改进。 | 11bd888a35434486bf209066c7dad0ee |
| DeepSeek-R1-0528 | DeepSeek-R1-0528是DeepSeek团队推出的最新版模型。模型基于 DeepSeek-V3-0324 训练,参数量达660B。该模型通过利用增加的计算资源并在后训练期间引入算法优化机制,显著提高了其推理和推理能力的深度。该模型在各种基准测试评估中表现出出色的性能,包括数学、编程和一般逻辑。它的整体性能现在接近 O3 和 Gemini 2.5 Pro 等领先机型。 | ff3f5c450f3b459cbe5d04a5ea9b2511 |
| DeepSeek-R1 | DeepSeek-R1 是一款具有创新性的大语言模型,由杭州深度求索人工智能基础技术研究有限公司开发。该模型基于 transformer 架构,通过对海量语料数据进行预训练,结合注意力机制,能够理解和生成自然语言。它经过监督微调、人类反馈的强化学习等技术进行对齐,具备语义分析、计算推理、问答对话、篇章生成、代码编写等多种能力。R1 模型在多个 NLP 基准测试中表现出色,具备较强的泛化能力和适应性。 | 4bd107bff85941239e27b1509eccfe98 |
| DeepSeek-V3 | DeepSeek-V3是DeepSeek团队开发的新一代专家混合(MoE)语言模型,共有671B参数,在14.8万亿个Tokens上进行预训练。该模型采用多头潜在注意力(MLA)和DeepSeekMoE架构,继承了DeepSeek-V2模型的优势,并在性能、效率和功能上进行了显著提升。 | 9dc913a037774fc0b248376905c85da5 |
| DeepSeek-R1-Distill-Llama-70B | DeepSeek-R1-Distill-Llama-70B是基于Llama架构并经过强化学习和蒸馏优化开发的高性能语言模型。该模型融合了DeepSeek-R1的先进知识蒸馏技术与Llama-70B模型的架构优势。通过知识蒸馏,在保持较小参数规模的同时,具备强大的语言理解和生成能力。 | 515fdba33cc84aa799bbd44b6e00660d |
| DeepSeek-R1-Distill-Qwen-32B | DeepSeek-R1-Distill-Qwen-32B是通过知识蒸馏技术从DeepSeek-R1模型中提炼出来的小型语言模型。它继承了DeepSeek-R1的推理能力,专注于数学和逻辑推理任务,但体积更小,适合资源受限的环境。 | b383c1eecf2c4b30b4bcca7f019cf90d |
| Baichuan2-Turbo | Baichuan-Turbo系列模型是百川智能推出的大语言模型,采用搜索增强技术实现大模型与领域知识、全网知识的全面链接。 | 43ac83747cb34730a00b7cfe590c89ac |
| Qwen2-72B-Instruct | Qwen2 是 Qwen 大型语言模型的新系列。Qwen2发布了5个尺寸的预训练和指令微调模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。这是指令调整的 72B Qwen2 模型,使用了大量数据对模型进行了预训练,并使用监督微调和直接偏好优化对模型进行了后训练。 | 2f05789705a64606a552fc2b30326bba |
| ChatGLM3-6B | ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了更强大的基础模型、更完整的功能支持、更全面的开源序列几大特性。 | 7450fa195778420393542c7fa13c6640 |
| TeleChat-12B | 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,TeleChat-12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。TeleChat-12B-bot在模型结构、训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比TeleChat-7B-bot均有大幅提升。 | fdc31b36028043c48b15131885b148ce |
| Llama3-8B-Instruct | Meta 开发并发布了 Meta Llama 3 系列大型语言模型 (LLM),包含 8B 和 70B 两种参数大小,Llama3-8B-Instruct 是经过指令微调的版本,针对对话用例进行了优化,在常见的行业基准测试中优于许多可用的开源聊天模型。 | bda59c34e4424598bbd5930eba713fbf |
| Llama3-70B-Instruct | Meta 开发并发布了 Meta Llama 3 系列大型语言模型 (LLM),包含 8B 和 70B 两种参数大小,Llama3-70B-Instruct 是经过指令微调的版本,针对对话用例进行了优化,在常见的行业基准测试中优于许多可用的开源聊天模型。 | 6192ed0cb6334302a2c32735dbbb6ce3 |
| Qwen-VL-Chat | Qwen-VL-Chat模型是在阿里云研发的大规模视觉语言模型 Qwen-VL 系列的基础上,使用对齐机制打造的视觉AI助手,该模型有更优秀的中文指令跟随,支持更灵活的交互方式,包括多图、多轮问答、创作等能力。 | e8c39004ff804ca699d47b9254039db8 |
| StableDiffusion-V2.1 | StableDiffusion-V2.1是由 Stability AI 公司推出的基于深度学习的文生图模型,它能够根据文本描述生成详细的图像,同时也可以应用于其他任务,例如图生图,生成简短视频等。 | 40f9ae16e840417289ad2951f5b2c88f |
| Deepseek-V2-Lite-Chat | Deepseek-V2-Lite-Chat是一款强大的开源专家混合(MoE)语言聊天模型,具有16B参数,2.4B活动参数,使用5.7T令牌从头开始训练,其特点是同时具备经济的训练和高效的推理。 | 0855b510473e4ec3a029569853f64974 |
| Qwen2.5-72B-Instruct | Qwen2.5系列发布了许多基本语言模型和指令调整语言模型,参数范围从0.5到720亿个参数不等。Qwen2.5-72B-Instruct模型是Qwen2.5系列大型语言模型指令调整版本。 | d9df728b30a346afb74d2099b6c209aa |
| Gemma2-9B-IT | Gemma2-9B-IT是Google最新发布的具有90亿参数的开源大型语言模型的指令调优版本。模型在大量文本数据上进行预训练,并且在性能上相较于前一代有了显著提升。该版本的性能在同类产品中也处于领先地位,超过了Llama3-8B和其他同规模的开源模型。 | 4dae2b9727db46b7b86e84e8ae6530a9 |
| Llama3.2-3B-Instruct | Meta Llama3.2多语言大型语言模型(LLMs)系列是一系列预训练及指令微调的生成模型,包含1B和3B参数规模。Llama3.2指令微调的纯文本模型专门针对多语言对话应用场景进行了优化,包括代理检索和摘要任务。它们在通用行业基准测试中超越了许多可用的开源和闭源聊天模型。这是Llama3.2-3B-Instruct版本。 | f7d0baa95fd2480280214bfe505b0e2e |
| ChatGLM3-6B-32K | ChatGLM3-6B-32K模型在ChatGLM3-6B的基础上进一步强化了对于长文本的理解能力,能够更好的处理最多32K长度的上下文。具体对位置编码进行了更新,并设计了更有针对性的长文本训练方法,在对话阶段使用 32K 的上下文长度训练。 | 98b6d84f6b15421886d64350f2832782 |
| CodeGemma-7B-IT | CodeGemma是构建在Gemma之上的轻量级开放代码模型的集合。CodeGemma-7B-IT模型是CodeGemma系列模型之一,是一种文本到文本和文本到代码的解码器模型的指令调整变体,具有70亿参数,可用于代码聊天和指令跟随。 | fa8b78d2db034b6798c894e30fba1173 |
| Qwen2.5-Math-7B-Instruct | Qwen2.5-Math系列是数学专项大语言模型Qwen2-Math的升级版。系列包括1.5B、7B、72B三种参数的基础模型和指令微调模型以及数学奖励模型Qwen2.5-Math-RM-72B,Qwen2.5-Math-7B-Instruct的性能与Qwen2-Math-72B-Instruct相当。 | ea056b1eedfc479198b49e2ef156e2aa |
| DeepSeek-Coder-V2-Lite-Instruct | DeepSeek-Coder-V2-Lite-Instruct是一款强大的开源专家混合(MoE)语言聊天模型,具有16B参数,2.4B活动参数。该模型基于DeepSeek-V2进一步预训练,增加了6T Tokens,可在特定的代码任务中实现与GPT4-Turbo相当的性能。 | f23651e4a8904ea589a6372e0e860b10 |
| BGE-m3 | BGE-m3是智源发布的通用语义向量模型BGE家族新成员,支持超过100种语言,具备领先的多语言、跨语言检索能力,全面且高质量地支撑“句子”、“段落”、“篇章”、“文档”等不同粒度的输入文本,最大输入长度为8192,并且一站式集成了稠密检索、稀疏检索、多向量检索三种检索功能,在多个评测基准中达到最优水平。 | 46c1326f63044fbe80443af579466fe3 |
| Qwen2-7B-Instruct | Qwen2-7B-Instruct是 Qwen2大型语言模型系列中覆盖70亿参数的指令调优语言模型,支持高达 131,072 个令牌的上下文长度,能够处理大量输入。 | 0e97efbf3aa042ebbaf0b2d358403b94 |
| Qwen3-235B-A22B | Qwen3-235B-A22B是Qwen3系列大型语言模型的旗舰模型。拥有2350多亿总参数和220多亿激活参数。在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。 | 35af69e0d4af492ca366cf2df03c3172 |
| Qwen3-32B | Qwen3是Qwen系列中最新一代的大型语言模型,提供一整套密集(Dense)模型和混合专家(MoE)模型。Qwen3基于广泛的培训而构建,在推理、指令遵循、代理功能和多语言支持方面取得了突破性的进步。Qwen3-32B是参数量为32.8B的密集(Dense)模型。 | 3836b8d2ec5d46fc94cc7891064940aa |
| Qwen3-14B | Qwen3是Qwen系列中最新一代的大型语言模型,提供一整套密集(Dense)模型和混合专家(MoE)模型。Qwen3基于广泛的培训而构建,在推理、指令遵循、代理功能和多语言支持方面取得了突破性的进步。Qwen3-14B是参数量为14.8B的密集(Dense)模型。 | 5873b698960f45c8ae36e72566f7f141 |
| Qwen3-8B | Qwen3是Qwen系列中最新一代的大型语言模型,提供一整套密集(Dense)模型和混合专家(MoE)模型。Qwen3基于广泛的培训而构建,在推理、指令遵循、代理功能和多语言支持方面取得了突破性的进步。Qwen3-8B是参数量为82亿的密集(Dense)模型。 | dceefe3233794dd385e3c2ab500dc6c8 |
| Qwen3-4B | Qwen3是Qwen 系列最新一代大型语言模型,提供了一系列密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面实现了突破性进展 | 8606056bfe0c49448d92587452d1f2fc |
| QwQ-32B | QwQ-32B是一款拥有 320 亿参数的推理模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。该模型集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。 | b9293363bfbf4db2bccb839ff4300d17 |
| Qwen2.5-VL-72B-Instruct | Qwen2.5-VL-72B-Instruct模型是阿里云通义千问开源的全新视觉模型,具有720亿参数规模,以满足高性能计算场景的需求。目前共推出3B、7B、32B和72B四个尺寸的版本。这是旗舰版Qwen2.5-VL-72B的指令微调模型,在13项权威评测中夺得视觉理解冠军,全面超越GPT-40与Claude3.5。 | 88003ac1ca7a4e4e8efa7caee648323b |
API列表
更新时间 2025-09-10 17:31:07
最近更新时间: 2025-09-10 17:31:07
平台提供了以下大模型API能力。