缓存命中 本文为您介绍模型推理服务缓存命中能力。 缓存命中概念 在大模型API的实际调用中,许多场景(如长文档问答、多轮对话、带有大量 System Prompt 的角色扮演)会反复向模型发送相同的前置内容。缓存命中是一项旨在优化此类场景的高效计算机制,系统会将您请求中的重复前置内容进行缓存,当您后续的请求携带相同的前置内容时,模型无需重新计算这些 Token。从而降低使用成本,命中缓存的输入Token将享受折扣价。 支持的模型 支持缓存命中能力的模型见各模型卡片,或前往按需计费模式Tokens查看。 如何提升缓存命中率 在分布式集群架构下,为了提升缓存命中率,您可以在调用模型服务时传入特定的自定义参数。 1. 提升命中率的参数接入说明 在调用支持缓存命中能力的模型时,您可以在请求体Body中携带上下文会话标识参数。 参数名称:promptcachekey 参数限制:最大长度不超过64个字符。 参数要求:建议传入具有唯一性的字符串(如用户的 UserID、会话的 SessionID、文档的 DocumentID 等)。属于同一长文档阅读或同一用户连续对话的请求,建议保持该参数值一致。 2. 调用请求示例 (cURL) plaintext curl location request POST ' header 'Authorization: Bearer xxx' header 'ContentType: application/json' header 'Accept: /' dataraw '{ "model": "xxx", "promptcachekey": "myprefixcachekey001", "messages": [ { "role": "user", "content": "请对北京与上海这两座中国顶级一线城市进行全面、深度、多角度、客观中立的对比分析。" } ], "maxtokens": 200, "temperature": 0.6, "topp": 0.7, "repetitionpenalty": 1.0, "stream": true, "enablethinking": true, "streamoptions": { "includeusage": true } }'