缓存命中 3. 如何查看缓存命中情况 说明 缓存命中属于“尽力而为”的底层优化机制,系统为每个会话维持保留缓存的时间是有限的,如果调用时间过长,或超出了系统承载能力,缓存将被释放。 您可以通过以下两种方式查看您的缓存命中数据: 方式一:通过平台“调用监控”查看 在模型推理服务“调用监控服务详情”页面。在调用Token量图表筛选条件中选择“按Token用量付费”“缓存命中”,即可直观地按时段查看缓存命中的Token量。 方式二:通过 API 返回的 usage 字段实时查看 在模型服务调用返回的信息中,usage字段会透出本次请求Token的消耗明细: plaintext { "code": 0, "id": "chatcmpl17746032558594390000da17b1bf", "choices": [], "created": 1774603256, "model": "DeepSeekV3.2", "object": "chat.completion.chunk", "usage": { "completiontokens": 200, "prompttokens": 414, "totaltokens": 614, "prompttokensdetails": { "cachedtokens": 256 } } } 计费说明 关于支持缓存命中的模型,Input (输入) Token 的计费将被自动拆分为两部分: 未命中缓存:按照模型输入单价的标准价格进行计费。 命中缓存:按照模型“缓存命中”的输入价格进行计费。 Output (输出) Token:无论是否命中缓存,输出部分的计费标准保持不变。 注意 缓存命中价格全天时段统一,不参与优惠时段(00:0008:00)折扣。