Token 概念

在模型服务中，一个核心概念是“token”。当您调用模型进行推理服务时，输入内容会首先经过分词处理，转换成模型能够识别的token形式。随后，这些token经过模型的处理，再以token的形式输出，并最终转化为您所需的文本。

模型服务费用 = token 使用数量 * token 单价

不同的模型可能采用不同的分词策略，同一段文本在不同模型上的 tokens 计量会存在差异。

产品价格

按 token 使用量付费

出账时间：每小时出账。
付款类型：按量后付费。
免费额度：使用模型时，将优先消耗免费额度，免费额度耗尽后，调用将会失败；如需继续使用，需要手动开通对应的模型付费服务。

在线推理

标准时段

标准时段：08:00-24:00，各模型价格如下表，实际购买价格以下单页面为准。

模型名称	条件	服务类型	计费单位 (元/百万tokens)	计费单位 (元/千tokens)	免费说明
DeepSeek-V4-Pro	输入		12	0.012	每个模型可免费使用50万tokens，从第一次使用开始限期两周。免费额度用完或到期后，可以付费开通服务。
DeepSeek-V4-Pro	输出		24	0.024
DeepSeek-V4-Flash	输入		1	0.001
DeepSeek-V4-Flash	输出		2	0.002
GLM-5.1	输入(0, 32k]	输入	6	0.006
	输入(0, 32k]	输出	24	0.024
	输入(32k, 200k]	输入	8	0.008
	输入(32k, 200k]	输出	28	0.028
GLM4.6V	输入(0, 32k]	输入	1	0.001
	输入(0, 32k]	输出	3	0.003
	输入(32k, 128k]	输入	2	0.002
	输入(32k, 128k]	输出	6	0.006
Qwen3.5-122B-A10B	输入(0, 128k]	输入	0.8	0.0008
	输入(0, 128k]	输出	6.4	0.0064
	输入(128k, 256k]	输入	2	0.002
	输入(128k, 256k]	输出	16	0.016
Qwen3.5-35B-A3B	输入(0, 128k]	输入	0.4	0.0004
	输入(0, 128k]	输出	3.2	0.0032
	输入(128k, 256k]	输入	1.6	0.0016
	输入(128k, 256k]	输出	12.8	0.0128
Qwen3-Next-80B-A3B-Instruct	输入		1	0.001
Qwen3-Next-80B-A3B-Instruct	输出		4	0.004
Qwen3-VL-235B-A22B-Instruct	输入		2	0.002
Qwen3-VL-235B-A22B-Instruct	输出		8	0.008
Kimi-K2.5	输入		4	0.004
Kimi-K2.5	输出		21	0.021
Minimax-M2.5	输入		2.1	0.0021
Minimax-M2.5	输出		8.4	0.0084
Qwen3.5-397B-A17B（正式版）	输入(0, 128k]	输入	1.2	0.0012	每个模型可免费使用2500万tokens，从第一次使用开始限期两周。免费额度用完或到期后，可以付费开通服务。
	输入(0, 128k]	输出	7.2	0.0072
	输入(128k, 256k]	输入	3	0.003
	输入(128k, 256k]	输出	18	0.018
GLM-5（正式版）	输入(0, 32k]	输入	4	0.004
	输入(0, 32k]	输出	18	0.018
	输入(32k,200k]	输入	6	0.006
	输入(32k,200k]	输出	22	0.022
DeepSeek-V3.2（旗舰版）	输入		2	0.002
	输入（缓存命中）		0.2	0.0002
	输出		3	0.003
DeepSeek-V3.1	输入		4	0.004
	输入（缓存命中）		0.5	0.0005
	输出		16	0.016
DeepSeek-R1-0528	输入		4	0.004
DeepSeek-R1-0528	输出		16	0.016
DeepSeek-R1	输入		4	0.004
DeepSeek-R1	输出		16	0.016
DeepSeek-V3	输入		2	0.002
DeepSeek-V3	输出		8	0.008
DeepSeek-V3-0324	输入		2	0.002
DeepSeek-V3-0324	输出		8	0.008
DeepSeek-R1-Distill-Llama-70B	输入		4.1	0.0041
DeepSeek-R1-Distill-Llama-70B	输出		4.1	0.0041
DeepSeek-R1-Distill-Qwen-32B	输入		1.3	0.0013
DeepSeek-R1-Distill-Qwen-32B	输出		1.3	0.0013
Qwen3-VL-30B-A3B-Instruct	输入		0.75	0.00075	每个模型可免费使用100万tokens，从第一次使用开始限期两周。免费额度用完或到期后，可以付费开通服务。
Qwen3-VL-30B-A3B-Instruct	输出		3	0.003
Qwen3-Coder-480B-A35B-Instruct	输入		8	0.008
Qwen3-Coder-480B-A35B-Instruct	输出		16	0.016
Qwen3-235B-A22B-Instruct-2507	输入		2	0.002
Qwen3-235B-A22B-Instruct-2507	输出		8	0.008
Qwen3-235B-A22B	输入		2.5	0.0025
Qwen3-235B-A22B	输出		10	0.01
Qwen3-30B-A3B	输入		1	0.001
Qwen3-30B-A3B	输出		4	0.004
Qwen3-32B	输入		1	0.001
Qwen3-32B	输出		4	0.004
Qwen3-14B	输入		0.8	0.0008
Qwen3-14B	输出		1.6	0.0016
Qwen3-8B	输入		0.3	0.0003
Qwen3-8B	输出		0.6	0.0006
Qwen3-4B	输入		0.3	0.0003
Qwen3-4B	输出		0.6	0.0006
Qwen2.5-72B-Instruct	输入		4.13	0.00413
Qwen2.5-72B-Instruct	输出		4.13	0.00413
Qwen2.5-VL-72B-Instruct	输入		4.13	0.00413
Qwen2.5-VL-72B-Instruct	输出		4.13	0.00413
Qwen-VL-Chat	输入		0.8	0.0008
Qwen-VL-Chat	输出		1.6	0.0016
BGE-m3	输入		0.5	0.0005
BGE-Reranker-Large	输入		0.5	0.0005
Kimi-K2-Instruct	输入		4	0.004
Kimi-K2-Instruct	输出		16	0.016
其他系列模型	每个模型可免费使用一定额度tokens，用尽后不支持tokens计费模式。

优惠时段

优惠时段：00:00-08:00，各模型价格如下表，实际购买价格以下单页面为准。

说明

优惠时段不适用于缓存命中价格，缓存命中价格全天一致。

模型名称	条件	服务类型	计费单位 (元/百万tokens)	计费单位 (元/千tokens)	优惠时段说明
Qwen3.5-397B-A17B（正式版）	输入(0, 128k]	输入	0.6	0.0006	优惠时段时间范围：00:00-08:00
	输入(0, 128k]	输出	3.6	0.0036
	输入(128, 256k]	输入	1.5	0.0015
	输入(128, 256k]	输出	9	0.009
GLM-5（正式版）	输入(0, 32k]	输入	2	0.002
	输入(0, 32k]	输出	9	0.009
	输入(32k,200k]	输入	3	0.003
	输入(32k,200k]	输出	11	0.011
DeepSeek-V3.2（旗舰版）	输入		1	0.001
DeepSeek-V3.2（旗舰版）	输出		1.5	0.0015
DeepSeek-V3.1	输入		2	0.002
DeepSeek-V3.1	输出		8	0.008
DeepSeek-R1-0528	输入		1	0.001
DeepSeek-R1-0528	输出		4	0.004
DeepSeek-V3-0324	输入		1	0.001
DeepSeek-V3-0324	输出		4	0.004
DeepSeek-R1	输入		1	0.001
DeepSeek-R1	输出		4	0.004
DeepSeek-V3	输入		1	0.001
DeepSeek-V3	输出		4	0.004

批量推理

模型名称	服务类型	计费单位 (元/百万tokens)	计费单位 (元/千tokens)	批量推理说明
DeepSeek-V3.1	输入	1.6	0.0016	适用于无需实时响应的业务场景，可通过离线方式进行大规模数据处理。价格为在线推理标准时段的40%
DeepSeek-V3.1	输出	6.4	0.0064
DeepSeek-V3-0324	输入	0.8	0.0008
DeepSeek-V3-0324	输出	3.2	0.0032
DeepSeek-V3	输入	0.8	0.0008
DeepSeek-V3	输出	3.2	0.0032
DeepSeek-R1-0528	输入	1.6	0.0016
DeepSeek-R1-0528	输出	6.4	0.0064
DeepSeek-R1	输入	1.6	0.0016
DeepSeek-R1	输出	6.4	0.0064

使用限制

当前对模型设置了 RPM（Requests Per Minute，每分钟请求数）及 TPM（Tokens Per Minute，每分钟 token 数量）的调用限制，具体限制可在模型广场模型详情页中查看。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

星辰TokenHub运营服务平台

星辰TokenHub运营服务平台

Token 概念

产品价格

在线推理

标准时段

优惠时段

批量推理

使用限制

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

星辰TokenHub运营服务平台

星辰TokenHub运营服务平台

Token 概念

产品价格

在线推理

标准时段

优惠时段

批量推理

使用限制