批量推理 本文为您介绍模型推理服务批量推理模块。 批量推理(Batch Inference)适用于无需实时响应的业务场景,可通过离线方式进行大规模数据处理,用户无需关注单次请求的执行情况。批量推理价格仅为在线推理的40%,可有效降低大模型使用成本。 前提条件 1. 登录模型推理服务平台。 2. 账户余额≥100元人民币。为确保批量推理任务运行顺利,请确保账户内留有足够的余额。 计费说明 批量推理按 tokens 用量后付费,仅需为已处理的请求消耗的输入和输出 token 量付费,单价均为对应模型在线推理价格的40%。具体用量可在批量推理任务详情页 “Tokens 使用” 或 “调用监控” > “批量推理类型” 查看。 说明 批量推理作为独立计费项,不支持使用在线推理的免费额度、tokens按量、tokens包、TPM包等。 操作步骤 1. 准备上传数据文件 请参考示例文件demo.jsonl准备待批量处理的输入文件。 文本生成类模型: c { "customid": "request1", "body": { "model": "7f89d40dae04493782a443ec4af66118", "messages": [ { "role": "user", "content": "1+1等于多少" } ], "stream": true } } {"customid": "request2", "body": {"model": "7f89d40dae04493782a443ec4af66118", "messages": [{"role": "system", "content": "You are an unhelpful assistant."},{"role": "user", "content": "天空为什么这么蓝?"}],"maxtokens": 1000}} 向量化模型: plaintext {"customid":"request1","body":{"model":"78d6096150814ad2b36809244848db9a","input":["你好","天气怎么呀?"],"encodingformat":"float"}} {"customid":"request2","body":{"model":"78d6096150814ad2b36809244848db9a","input":"你好同学","encodingformat":"float"}} {"customid":"request3","body":{"model":"78d6096150814ad2b36809244848db9a","input":["你好","天气怎么呀?"],"encodingformat":"base64"}} {"customid":"request4","body":{"model":"78d6096150814ad2b36809244848db9a","input":"天气怎么呀","encodingformat":"base64"}} 为避免因为文件格式错误,导致批量推理任务失败,为您提供了脚本进行校验,上传前可检测您的文件: batchinfercheck.py 输入文件格式说明: 请上传 500 MB 以内的.jsonl 格式文件; 每一行为一个 JSON 格式的请求,每个请求内容大小不超过 6 MB(同时遵循所选模型上下文长度限制); 文件内处理的请求数量不超过 5 万条; 每个任务支持上传一个文件。