在线推理 本文为您介绍模型推理服务在线推理模块。 平台在线推理模块提供预置服务和我的服务两类,预置服务是平台已部署好的服务,无等待时间,可直接调用;我的服务支持用户所部署的模型。 预置服务 操作步骤 1. 登录模型推理服务。 2. 在左侧导航栏选择“在线推理”,选择“预置服务”。 3. 在预置服务列表可查看目前平台预置的所有服务,预置服务支持免费试用和付费使用。 计费说明 在调用模型推理服务的过程中,输入内容首先会被分词(tokenize),转换为模型可识别的Token。在调用预置服务时,将根据实际使用的Tokens数量进行计费。平台提供免费试用额度和tokens按量、tokens量包、TPM包三种商用服务。 免费试用 每个模型被赋予不等的免费额度和免费试用期限,具体免费额度可在页面中查看,免费期限从第一次使用该模型开始计算。免费额度用完或到期后,可以付费开通服务。 共享机制:主/子账号共用免费额度及有效期周期额度 不可分配:不支持主账号向子账号分配额度 有效期触发:主账号任一账号首次使用模型服务即启动2周有效期倒计时 tokens按量付费使用 部分模型支持开通付费token服务。暂不支持开通付费token的模型可转为部署为“我的服务”。 独立开通:各账号可单独开通付费服务,操作互不影响。 状态独立:各账号页面显示自身付费状态,不关联其他账号。 闲时推理:部分模型推出优惠时段价格,在优惠时段内的请求按优惠价格计费。 缓存命中:缓存命中是一种高效缓存机制。通过缓存常用上下文数据,减少每次请求时重复处理加载开销,降低使用成本。适合多轮对话、工具调用、角色扮演等需多次传入相同内容的场景。部分模型支持缓存命中能力,且对命中缓存的输入token价格设置折扣,该折扣不与闲时推理共享,全天时段统一。 统一扣费:所有子账号消费均从主账号余额扣除。 计费策略:支持tokens按量付费使用的模型、支持闲时推理、缓存命中模型及对应价格参见按需计费模式Tokens。 举例:子账号A已开通付费,成功后即可付费使用Tokens;子账号B未开通,则子账号B不可付费使用tokens。