平台在线推理模块提供预置服务和我的服务两类,预置服务是平台已部署好的服务,无等待时间,可直接调用;我的服务支持用户所部署的模型。
预置服务
登录模型推理服务。
在左侧导航栏选择“在线推理”,选择“预置服务”。
在预置服务列表可查看目前平台预置的所有服务,预置服务支持免费试用和付费使用。
免费试用
每个模型被赋予不等的免费额度和免费试用期限,具体免费额度可在页面中查看,免费期限从第一次使用该模型开始计算。免费额度用完或到期后,可以付费开通服务。
共享机制:主/子账号共用免费额度及有效期周期额度
不可分配:不支持主账号向子账号分配额度
有效期触发:主账号任一账号首次使用模型服务即启动2周有效期倒计时
付费使用
部分模型支持开通付费token服务。暂不支持开通付费token的模型可转为部署为“我的服务”。
独立开通:各账号可单独开通付费服务,操作互不影响
状态独立:各账号页面显示自身付费状态,不关联其他账号
统一扣费:所有子账号消费均从主账号余额扣除
举例:子账号A已开通付费,成功后即可付费使用tokens;子账号B未开通,则子账号B不可付费使用tokens。
我的服务
登录模型推理服务。
在左侧导航栏选择“在线推理”,选择“我的服务”。
点击“部署我的模型”可部署预置模型服务。
新建我的服务
参数类型 | 参数名称 | 说明 |
---|---|---|
模型服务信息 | 服务名称 | 必填,填写服务的名称 |
服务地址 | 服务接口地址 | |
模型信息 | 选择模型 | 必填,选择待发布的模型 |
训练框架 | 必选,根据所选模型显示支持的框架。目前支持PyTorch和MindSpore | |
资源配置 | 资源规格 | 必填,选择资源的规格。具体资源规格参见规格详情。 说明:为保证模型性能,资源规格列表已自动过滤不可用规格。 |
实例数量 | 必填,部署该服务的实例数量,默认为1。 | |
单实例部署机器数 | 一个实例需要部署的机器数量。参数量级较大的模型需要进行分布式推理部署。 |
管理我的服务
在列表可查看模型是否部署成功,在操作列可进行模型查看、更新、停止、重启、修改、上下线、删除等操作。停止服务后计费也会停止,再次启动服务即可开通计费。
操作列点击【查看】可进入该服务的详情页,查看部署的模型列表、服务监控、配置历史、运行记录、事件日志、服务日志。
状态为运行中的模型服务可正常调用。需要使用location+modelId+appKey请求调用。具体调用方式如下:
点击【查看】进入该服务的详情页,可查看该服务的API文档,通过详情页中的“modelId”和“接口地址”条目获取modelId和location。
创建或编辑服务组,选择对应服务并提交,通过服务组卡片上的“App Key”条目获取AppKey。
根据平台规范构造请求,调用对应服务,目前支持部署Chat类型的模型,请求样例如下:
curl --location '{$location}' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer {$appKey}' \
--data '{
"model": "{$modelId}",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "xxx"
}
]
}
]
}'