Token 概念
在模型服务中,一个核心概念是“token”。当您调用模型进行推理服务时,输入内容会首先经过分词处理,转换成模型能够识别的token形式。随后,这些token经过模型的处理,再以token的形式输出,并最终转化为您所需的文本。
模型服务费用 = token 使用数量 * token 单价
不同的模型可能采用不同的分词策略,同一段文本在不同模型上的 tokens 计量会存在差异。
产品价格
按 token 使用量付费
出账时间:每小时出账。
付款类型:按量后付费。
免费额度:使用模型时,将优先消耗免费额度,免费额度耗尽后,调用将会失败;如需继续使用,需要手动开通对应的模型付费服务。
在线推理
标准时段
标准时段:08:00-24:00,各模型价格如下表,实际购买价格以下单页面为准。
模型名称 | 条件 | 服务类型 | 计费单位 (元/百万tokens) | 免费说明 |
|---|---|---|---|---|
| GLM-5.1 | 输入(0, 32k] | 输入 | 6 | 每个模型可免费使用50万tokens,从第一次使用开始限期两周。免费额度用完或到期后,可以付费开通服务。 |
输出 | 24 | |||
| 输入(32k, 200k] | 输入 | 8 | ||
输出 | 28 | |||
| GLM4.6V | 输入(0, 32k] | 输入 | 1 | |
输出 | 3 | |||
| 输入(32k, 128k] | 输入 | 2 | ||
输出 | 6 | |||
| Qwen3.5-122B-A10B | 输入(0, 128k] | 输入 | 0.8 | |
输出 | 6.4 | |||
| 输入(128k, 256k] | 输入 | 2 | ||
输出 | 16 | |||
| Qwen3.5-35B-A3B | 输入(0, 128k] | 输入 | 0.4 | |
输出 | 3.2 | |||
| 输入(128k, 256k] | 输入 | 1.6 | ||
输出 | 12.8 | |||
| Qwen3-Next-80B-A3B-Instruct | 输入 | 1 | ||
输出 | 4 | |||
| Qwen3-VL-235B-A22B-Instruct | 输入 | 2 | ||
输出 | 8 | |||
| Kimi-K2.5 | 输入 | 4 | ||
输出 | 21 | |||
| Minimax-M2.5 | 输入 | 2.1 | ||
输出 | 8.4 | |||
| Qwen3.5-397B-A17B | 输入(0, 128k] | 输入 | 1.2 | 每个模型可免费使用2500万tokens,从第一次使用开始限期两周。免费额度用完或到期后,可以付费开通服务。 |
输出 | 7.2 | |||
| 输入(128k, 256k] | 输入 | 3 | ||
输出 | 18 | |||
| GLM-5 | 输入(0, 32k] | 输入 | 4 | |
输出 | 18 | |||
| 输入(32k,200k] | 输入 | 6 | ||
输出 | 22 | |||
| DeepSeek-V3.2 | 输入 | 2 | ||
| 输入(缓存命中) | 0.2 | |||
输出 | 3 | |||
DeepSeek-V3.1 | 输入 | 4 | ||
输入(缓存命中) | 0.5 | |||
输出 | 16 | |||
| DeepSeek-R1-0528 | 输入 | 4 | ||
输出 | 16 | |||
DeepSeek-R1 | 输入 | 4 | ||
输出 | 16 | |||
DeepSeek-V3 | 输入 | 2 | ||
输出 | 8 | |||
DeepSeek-V3-0324 | 输入 | 2 | ||
输出 | 8 | |||
DeepSeek-R1-Distill-Llama-70B | 输入 | 4.1 | ||
输出 | 4.1 | |||
DeepSeek-R1-Distill-Qwen-32B | 输入 | 1.3 | ||
输出 | 1.3 | |||
| Qwen3-VL-30B-A3B-Instruct | 输入 | 0.75 | 每个模型可免费使用100万tokens,从第一次使用开始限期两周。免费额度用完或到期后,可以付费开通服务。 | |
输出 | 3 | |||
Qwen3-Coder-480B-A35B-Instruct | 输入 | 8 | ||
输出 | 16 | |||
| Qwen3-235B-A22B-Instruct-2507 | 输入 | 2 | ||
输出 | 8 | |||
Qwen3-235B-A22B | 输入 | 2.5 | ||
输出 | 10 | |||
| Qwen3-30B-A3B | 输入 | 1 | ||
输出 | 4 | |||
| Qwen3-32B | 输入 | 1 | ||
输出 | 4 | |||
| Qwen3-14B | 输入 | 0.8 | ||
输出 | 1.6 | |||
Qwen3-8B | 输入 | 0.3 | ||
输出 | 0.6 | |||
| Qwen3-4B | 输入 | 0.3 | ||
输出 | 0.6 | |||
Qwen2.5-72B-Instruct | 输入 | 4.13 | ||
输出 | 4.13 | |||
Qwen2.5-VL-72B-Instruct | 输入 | 4.13 | ||
输出 | 4.13 | |||
Qwen-VL-Chat | 输入 | 0.8 | ||
输出 | 1.6 | |||
| BGE-m3 | 输入 | 0.5 | ||
| BGE-Reranker-Large | 输入 | 0.5 | ||
Kimi-K2-Instruct | 输入 | 4 | ||
输出 | 16 | |||
其他系列模型 | 每个模型可免费使用2500万或100万tokens,用尽后不支持tokens计费模式。 | |||
优惠时段
优惠时段:00:00-08:00,各模型价格如下表,实际购买价格以下单页面为准。
说明
优惠时段不适用于缓存命中价格,缓存命中价格全天一致。
| 模型名称 | 条件 | 服务类型 | 计费单位 (元/百万tokens) | 优惠时段说明 |
|---|---|---|---|---|
| Qwen3.5-397B-A17B | 输入(0, 128k] | 输入 | 0.6 | 优惠时段时间范围:00:00-08:00 |
输出 | 3.6 | |||
| 输入(128, 256k] | 输入 | 1.5 | ||
输出 | 9 | |||
| GLM-5 | 输入(0, 32k] | 输入 | 2 | |
输出 | 9 | |||
| 输入(32k,200k] | 输入 | 3 | ||
输出 | 11 | |||
| DeepSeek-V3.2 | 输入 | 1 | ||
输出 | 1.5 | |||
| DeepSeek-V3.1 | 输入 | 2 | ||
输出 | 8 | |||
| DeepSeek-R1-0528 | 输入 | 1 | ||
输出 | 4 | |||
| DeepSeek-V3-0324 | 输入 | 1 | ||
输出 | 4 | |||
| DeepSeek-R1 | 输入 | 1 | ||
输出 | 4 | |||
| DeepSeek-V3 | 输入 | 1 | ||
输出 | 4 | |||
批量推理
| 模型名称 | 服务类型 | 计费单位 (元/百万tokens) | 批量推理说明 |
|---|---|---|---|
| DeepSeek-V3.1 | 输入 | 1.6 | 适用于无需实时响应的业务场景,可通过离线方式进行大规模数据处理。价格为在线推理标准时段的40% |
输出 | 6.4 | ||
| DeepSeek-V3-0324 | 输入 | 0.8 | |
输出 | 3.2 | ||
| DeepSeek-V3 | 输入 | 0.8 | |
输出 | 3.2 | ||
| DeepSeek-R1-0528 | 输入 | 1.6 | |
输出 | 6.4 | ||
| DeepSeek-R1 | 输入 | 1.6 | |
输出 | 6.4 |
使用限制
当前对模型设置了 RPM(Requests Per Minute,每分钟请求数)及 TPM(Tokens Per Minute,每分钟 token 数量)的调用限制,具体限制可在模型广场模型详情页中查看。