平台在线推理模块提供预置服务和我的服务两类，预置服务是平台已部署好的服务，无等待时间，可直接调用；我的服务支持用户所部署的模型。

预置服务

操作步骤

登录星辰TokenHub运营服务平台。
在左侧导航栏选择“在线推理”，选择“预置服务”。
在预置服务列表可查看目前平台预置的所有服务，预置服务支持免费试用和付费使用。

计费说明

在调用模型服务的过程中，输入内容首先会被分词（tokenize），转换为模型可识别的Token。在调用预置服务时，将根据实际使用的Tokens数量进行计费。平台提供免费试用额度和tokens按量、tokens量包、TPM包三种商用服务。

免费试用

每个模型被赋予不等的免费额度和免费试用期限，具体免费额度可在页面中查看，免费期限从第一次使用该模型开始计算。免费额度用完或到期后，可以付费开通服务。

共享机制：主/子账号共用免费额度及有效期周期额度
不可分配：不支持主账号向子账号分配额度
有效期触发：主账号任一账号首次使用模型服务即启动2周有效期倒计时

tokens按量付费使用

部分模型支持开通付费tokens按量。暂不支持开通付费tokens按量的模型可转为部署为“我的服务”。

独立开通：各账号可单独开通付费服务，操作互不影响。
状态独立：各账号页面显示自身付费状态，不关联其他账号。
闲时推理：部分模型推出优惠时段价格，在优惠时段内的请求按优惠价格计费。
缓存命中：缓存命中是一种高效缓存机制。通过缓存常用上下文数据，减少每次请求时重复处理加载开销，降低使用成本。适合多轮对话、工具调用、角色扮演等需多次传入相同内容的场景。部分模型支持缓存命中能力，且对命中缓存的输入token价格设置折扣，该折扣不与闲时推理共享，全天时段统一。
统一扣费：所有子账号消费均从主账号余额扣除。
计费策略：支持tokens按量付费使用的模型、支持闲时推理、缓存命中模型及对应价格参见按需计费模式-Tokens。

举例：子账号A已开通付费，成功后即可付费使用Tokens；子账号B未开通，则子账号B不可付费使用tokens。

开通token量包

购买限制：只允许主账号开通tokens量包，主账号及所有子账号共用资源。
购买记录：主账号可在订单管理处查询订单，主账号可在模型服务详情页查看用量。
用量统计：各账号独立统计调用监控，主账号通过监控详情页筛选可见子账号用量。
统一扣费：主账号扣费。
计费策略：支持开通token量包的模型及对应价格参见包周期计费模式-Tokens量包。

举例：主账号A已开通Tokens包，子账号B、C、D可共享使用及查看资源包详情。

我的服务

登录星辰TokenHub运营服务平台。
在左侧导航栏选择“在线推理”，选择“我的服务”。
点击“部署我的模型”可部署预置模型服务。

新建我的服务

参数类型	参数名称	说明
模型服务信息	服务名称	必填，填写服务的名称
模型服务信息	服务地址	服务接口地址
模型信息	选择模型	必填，选择待发布的模型
模型信息	训练框架	必选，根据所选模型显示支持的框架。目前支持PyTorch和MindSpore
资源配置	资源规格	必填，选择资源的规格。具体资源规格参见规格详情。说明：为保证模型性能，资源规格列表已自动过滤不可用规格。
	实例数量	必填，部署该服务的实例数量，默认为1。
	单实例部署机器数	一个实例需要部署的机器数量。参数量级较大的模型需要进行分布式推理部署。

管理我的服务

在列表可查看模型是否部署成功，在操作列可进行模型查看、更新、停止、重启、修改、上下线、删除等操作。停止服务后计费也会停止，再次启动服务即可开通计费。
操作列点击【查看】可进入该服务的详情页，查看部署的模型列表、服务监控、配置历史、运行记录、事件日志、服务日志。
状态为运行中的模型服务可正常调用。需要使用location+modelId+appKey请求调用。具体调用方式如下：
- 点击【查看】进入该服务的详情页，可查看该服务的API文档，通过详情页中的“modelId”和“接口地址”条目获取modelId和location。
- 创建或编辑服务组，选择对应服务并提交，通过服务组卡片上的“App Key”条目获取AppKey。
- 根据平台规范构造请求，调用对应服务，目前支持部署Chat类型的模型，请求样例如下：

curl --location '{$location}' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer {$appKey}' \
--data '{
    "model": "{$modelId}",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "xxx"
                }
            ]
        }
    ]
}'

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

星辰TokenHub运营服务平台

星辰TokenHub运营服务平台

预置服务

操作步骤

计费说明

免费试用

tokens按量付费使用

开通token量包

我的服务

新建我的服务

管理我的服务

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

星辰TokenHub运营服务平台

星辰TokenHub运营服务平台

预置服务

操作步骤

计费说明

免费试用

tokens按量付费使用

开通token量包

我的服务

新建我的服务

管理我的服务