批量推理(Batch Inference)适用于无需实时响应的业务场景,可通过离线方式进行大规模数据处理,用户无需关注单次请求的执行情况。批量推理价格仅为在线推理的40%,可有效降低大模型使用成本。
前提条件
登录模型推理服务平台。
账户余额≥100元人民币。为确保批量推理任务运行顺利,请确保账户内留有足够的余额。
计费说明
批量推理按 tokens 用量后付费,仅需为已处理的请求消耗的输入和输出 token 量付费,单价均为对应模型在线推理价格的40%。具体用量可在批量推理任务详情页 “Tokens 使用” 或 “调用监控” -> “批量推理类型” 查看。
说明
批量推理作为独立计费项,不支持使用在线推理的免费额度、tokens按量、tokens包、TPM包等。
操作步骤
准备上传数据文件
请参考示例文件demo.jsonl准备待批量处理的输入文件。
{ "custom_id": "request-1", "body": { "model": "7f89d40dae04493782a443ec4af66118", "messages": [ { "role": "user", "content": "1+1等于多少" } ], "stream": true } }
{"custom_id": "request-2", "body": {"model": "7f89d40dae04493782a443ec4af66118", "messages": [{"role": "system", "content": "You are an unhelpful assistant."},{"role": "user", "content": "天空为什么这么蓝?"}],"max_tokens": 1000}}为避免因为文件格式错误,导致批量推理任务失败,为您提供了脚本进行校验,上传前可检测您的文件:
输入文件格式说明:
请上传 500 MB 以内的.jsonl 格式文件;
每一行为一个 JSON 格式的请求,每个请求内容大小不超过 6 MB(同时遵循所选模型上下文长度限制);
文件内处理的请求数量不超过 5 万条;
每个任务支持上传一个文件。
2. 创建批量推理任务
在“批量推理”模块列表页,点击“创建批量推理任务”跳转至创建页。
填写任务名称、最长等待时间等配置,并上传输入文件。
提交批量推理任务。
3. 查看与管理批量推理任务
在批量推理列表页、详情页可查看批量推理任务基本信息、状态、进度等。
对于运行中的批量推理任务可手动停止,停止后删除。注意:已停止的任务暂不支持重新启动。
批量推理状态说明如下:
状态 | 描述 |
校验中 | 校验上传文档内容和格式以及批量推理订单状态。 |
排队中 | 任务由于并发任务数达到上限或TPD达到上限等原因需排队等候。 |
运行中 | 任务正在运行中。 |
已完成 | 所有请求已经处理完毕,任务已完成。 |
停止中 | 由用户手动停止,任务当前处于停止中状态。 |
已停止 | 任务已被停止。 |
已超时 | 任务没有在最大等待时间内完成。 |
失败 | 输入文件校验失败、账户已欠费或其他原因导致任务失败。 |
4. 查看用量统计
在批量推理任务详情页「Tokens 使用」可查看token消耗数据。
在“调用监控”选择“批量推理”类型可查看用量数据。查看某一模型点击操作列的“调用监控”进入详情查看。
5. 查看结果文件
在批量推理列表页可下载结果文件和错误信息文件,“-”表示该任务不存在结果文件或错误信息文件。
在批量推理详情页可下载结果文件和错误信息文件或复制结果文件和错误信息文件的下载链接。
TPD配额说明
批量推理以 TPD(Tokens Per Day) 为单位,指 24 小时内系统处理的 token 量(包括输入与输出)。
配额共享:模型以模型维度设定,不同模型之间的TPD限额独立计算。同一主账号内所有子账号共享TPD。
配额隔离:批量推理额度与在线推理的额度使用分离。运行批量推理任务不会消耗模型的在线推理免费额度、tokens按量、tokens包等。
超配额任务:当任务达到 TPD 配额限制,状态会转为“排队中”并在平台资源空闲时尝试继续执行。
支持模型
批量推理目前支持部分模型,且支持与对应模型在线推理一致的参数配置选项。具体模型价格请参见按需计费模式-Tokens。