活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 天翼云新春焕新季 NEW 云主机开年特惠28.8元/年,0元秒杀等你来抢!
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      模型推理服务

      模型推理服务

      • 模型推理服务

      无数据

        • 产品动态
        • 产品介绍
        • 产品定义
        • 产品优势
        • 功能特性
        • 应用场景
        • 术语解释
        • 使用限制
        • 计费说明
        • 按需计费模式-Tokens
        • 包周期计费模式-编码套餐
        • 包周期计费模式-Tokens量包
        • 包周期计费模式-TPM包
        • 按需计费模式-卡时
        • 包周期计费模式-卡时
        • 产品退订
        • 快速入门
        • 准备工作
        • 快速入门
        • 用户指南
        • 编码套餐
        • 套餐概述
        • 快速开始
        • 接入AI工具
        • OpenClaw
        • Cursor
        • Chatbox
        • codebuddy
        • 常见问题
        • 智算广场
        • 模型广场
        • MCP广场
        • 体验中心
        • 模型体验
        • MCP体验
        • 模型服务
        • 服务接入
        • 在线推理
        • 缓存命中
        • 批量推理
        • 调用监控
        • 最佳实践
        • OpenClaw快速添加并使用息壤模型
        • DeepSeek模型调用-快捷版
        • DeepSeek模型调用-专业版
        • API参考
        • 推理服务API
        • 如何调用API
        • 接口类型列表
        • API列表
        • 错误处理
        • API
        • Chat对话API
        • Image文本生图API
        • Embeddings文本向量化API
        • Reranker重排序API
        • 模型列表API
        • 平台OpenAPI
        • 平台功能API使用说明
        • 常见问题
        • 计费类
        • 操作类
        • 权限类
        • 联系我们
        • 相关协议
        • 天翼云模型推理服务协议
        • 天翼云模型推理服务用户信息处理规则
        • 生成式人工智能服务备案信息参考
        • 文档下载
          无相关产品

          本页目录

          帮助中心模型推理服务用户指南模型服务缓存命中
          缓存命中
          更新时间 2026-03-31 01:08:08
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-03-31 01:08:08
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本文为您介绍模型推理服务缓存命中能力。

          缓存命中概念

          在大模型API的实际调用中,许多场景(如长文档问答、多轮对话、带有大量 System Prompt 的角色扮演)会反复向模型发送相同的前置内容。缓存命中是一项旨在优化此类场景的高效计算机制,系统会将您请求中的重复前置内容进行缓存,当您后续的请求携带相同的前置内容时,模型无需重新计算这些 Token。从而降低使用成本,命中缓存的输入Token将享受折扣价。

          支持的模型

          支持缓存命中能力的模型见各模型卡片,或前往按需计费模式-Tokens查看。

          如何提升缓存命中率

          在分布式集群架构下,为了提升缓存命中率,您可以在调用模型服务时传入特定的自定义参数。

          1. 提升命中率的参数接入说明

          在调用支持缓存命中能力的模型时,您可以在请求体Body中携带上下文会话标识参数。

          • 参数名称:prompt_cache_key

          • 参数限制:最大长度不超过64个字符。

          • 参数要求:建议传入具有唯一性的字符串(如用户的 UserID、会话的 SessionID、文档的 DocumentID 等)。属于同一长文档阅读或同一用户连续对话的请求,建议保持该参数值一致。

          2. 调用请求示例 (cURL)

          curl --location --request POST 'https://wishub.ctyun.cn/v1/chat/completions' \
          --header 'Authorization: Bearer xxx' \
          --header 'Content-Type: application/json' \
          --header 'Accept: */*' \
          --data-raw '{
              "model": "xxx",
              "prompt_cache_key": "my-prefix-cache-key-001",
              "messages": [
                  {
                      "role": "user",
                      "content": "请对北京与上海这两座中国顶级一线城市进行全面、深度、多角度、客观中立的对比分析。"
                  }
              ],
              "max_tokens": 200,
              "temperature": 0.6,
              "top_p": 0.7,
              "repetition_penalty": 1.0,
              "stream": true,
              "enable_thinking": true,
              "stream_options": {
                  "include_usage": true
              }
          }'

          3. 如何查看缓存命中情况

          说明

          缓存命中属于“尽力而为”的底层优化机制,系统为每个会话维持保留缓存的时间是有限的,如果调用时间过长,或超出了系统承载能力,缓存将被释放。

          您可以通过以下两种方式查看您的缓存命中数据:

          • 方式一:通过平台“调用监控”查看

          在模型推理服务“调用监控服务详情”页面。在调用Token量图表筛选条件中选择“按Token用量付费”-“缓存命中”,即可直观地按时段查看缓存命中的Token量。

          • 方式二:通过 API 返回的 usage 字段实时查看

          在模型服务调用返回的信息中,usage字段会透出本次请求Token的消耗明细:

          {
              "code": 0,
              "id": "chatcmpl-17746032558594390000da17b1bf",
              "choices": [],
              "created": 1774603256,
              "model": "DeepSeek-V3.2",
              "object": "chat.completion.chunk",
              "usage": {
                  "completion_tokens": 200,
                  "prompt_tokens": 414,
                  "total_tokens": 614,
                  "prompt_tokens_details": {
                      "cached_tokens": 256
                  }
              }
          }

          计费说明

          关于支持缓存命中的模型,Input (输入) Token 的计费将被自动拆分为两部分:

          • 未命中缓存:按照模型输入单价的标准价格进行计费。

          • 命中缓存:按照模型“缓存命中”的输入价格进行计费。

          Output (输出) Token:无论是否命中缓存,输出部分的计费标准保持不变。

          注意

          缓存命中价格全天时段统一,不参与优惠时段(00:00-08:00)折扣。

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  在线推理
          下一篇 :  批量推理
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明