活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      并行文件服务 HPFS

      并行文件服务 HPFS

      • 并行文件服务 HPFS

      无数据

        • 产品动态
        • 产品介绍
        • 产品定义
        • 术语解释
        • 产品优势
        • 功能特性
        • 产品规格
        • 应用场景
        • 使用限制
        • 协议相关限制
        • 操作系统限制
        • 产品能力地图
        • 计费说明
        • 计费概述
        • 计费模式
        • 按需计费
        • 产品价格
        • 欠费说明
        • 退订说明
        • 账单管理
        • 快速入门
        • 入门流程
        • 准备工作
        • 创建文件系统
        • 挂载文件系统
        • 挂载访问概述
        • HPFS-POSIX客户端挂载
        • HPFS-NFS客户端挂载
        • 用户指南
        • 容量调整
        • 查询文件系统详情
        • 删除文件系统
        • 卸载文件系统
        • HPFS-POSIX客户端卸载
        • HPFS-NFS客户端卸载
        • 权限控制
        • 通过IAM进行权限控制
        • 监控告警
        • 云监控
        • 监控指标
        • 创建告警规则
        • 查看监控数据
        • 协议服务
        • 协议服务概述
        • 创建协议服务
        • 查询协议服务
        • 删除协议服务
        • FILESET管理
        • FILESET概述
        • 创建FILESET
        • 查询FILESET
        • 修改FILESET
        • 删除FILESET
        • 标签管理
        • 概述
        • 标签设计原则及示例
        • 标签管理
        • 数据迁移
        • 迁移概述
        • 命令拷贝
        • 工具迁移
        • 数据快递
        • 云审计
        • 最佳实践
        • 文件系统子目录权限隔离
        • 性能调优
        • GDS加速HPFS存储访问
        • HPFS 助力极速缓存最佳实践
        • 推理缓存加速方案概述
        • 云容器引擎部署HPKV指南
        • API参考
        • API说明
        • 常见问题
        • 概念类
        • 规格类
        • 计费类
        • 管理类
        • 操作类
        • 相关协议
        • 产品服务协议
        • 产品服务等级协议
        • 文档下载
          无相关产品

          本页目录

          帮助中心并行文件服务 HPFS最佳实践HPFS 助力极速缓存最佳实践推理缓存加速方案概述
          推理缓存加速方案概述
          更新时间 2026-04-03 17:48:11
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-04-03 17:48:11
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接

          产品简介

          • 极速缓存(HPKV,High Performance KVCache)是天翼云自主研发的模型推理多级 KV Cache 缓存服务,扩展了受显存容量限制的 Prefix Cache 能力,将 KV Cache 跨请求复用能力进一步扩展到 CPU 内存(分布式内存池)和高性能存储(SSD、HPFS)。

          • 云容器引擎提供高度可扩展的、高性能的Kubernetes集群、一站式容器服务;兼容主流国产化服务器和操作系统,取得全栈国产化适配认证证书。其整合了镜像、监控、日志、负载均衡、灰度/蓝绿、多种弹性策略、高效调度、集群插件、模板市场等基础能力,帮助企业快速构建和运行可弹性扩展的应用,实现业务的快速交付与持续创新。

            模板市场是云容器引擎基于 Kubernetes Helm 提供的应用模板管理与发布能力。您可以将 HPKV 模板(Chart)上传至模板市场,实现快速部署与后期管理,大幅简化 Kubernetes 资源的配置部署过程。

          • 并行文件服务 HPFS 作为极速缓存 HPKV 的三级存储层,承担模型文件、缓存数据的持久化与高并发读写任务。HPFS 让缓存存储从 GB 级显存扩展至 PB 级,通过全链路 RDMA 与 IB/RoCE 高速网络协议提供千万级 IOPS 与 TBps 级吞吐,同时保证亚毫秒级延迟,达成最佳成本效益。

          组合优势

          • 缓存自动卸载:显存减负与数据流转的核心枢纽

            HPKV 系统构建了 GPU HBM → Host DRAM → Local NVMe SSD 或 Remote Storage/HPFS 的多级存储体系,通过跨请求的 KV Cache 深度复用,践行“以存代算”理念,有效消除推理服务中的冗余计算开销,显著降低首Token延迟(TTFT)并提升吞吐量,同时降低算力成本。通过智能沉降与基于热度、存储时长、容量的多策略驱逐机制,在各级存储间自动流转数据,精准淘汰冷数据,实现效率与成本的最优平衡。

          • 智能数据预取:掩盖 I/O 延迟的启动加速核心

            在推理任务排队等待阶段,通过与全局调度器的深度联动实现智能预取。系统提前将目标 KV Cache 从 SSD/HPFS 异步预取至 Host 内存和 GPU HBM,确保任务启动时数据“即取即用”,有效掩盖 I/O 延迟,将任务启动等待时间缩减 50% 以上,极大提升用户体验。

          • 分布式存储层:容量与性能的弹性基石

            深度集成高性能分布式文件系统 HPFS,将 KV Cache 存储容量从 GB 级显存无缝扩展至 PB 级,实现存储资源的独立弹性伸缩。其通过全链路 RDMA 与 IB/RoCE 高速网络协议,提供千万级 IOPS 与 TBps 级吞吐,同时保证亚毫秒级延迟,使海量历史上下文不仅能“存得下”,更能“取得快”。在多轮对话与高并发场景中,该架构以极速 I/O 替代 GPU重复计算,在充分释放昂贵 HBM 资源的同时,保障了推理服务的超低延迟响应,最终达成了存算效率与成本的最佳平衡。

          • 生态兼容:多框架多硬件的广泛兼容

            适配天翼云自研 CTyunOS 系列及主流 Linux 操作系统,广泛兼容多款国产化AI算力硬件。无缝对接 vLLM、SGLang 等主流开源大模型推理引擎,全面支持张量并行(TP)、流水线并行(PP)、数据并行(DP)、PD 分离等主流分布式策略及多种注意力机制的模型,灵活适配并支撑多样化的模型架构演进。

          应用场景

          • 长文本推理场景

            大模型在处理法律合同分析、学术论文理解、代码理解等长文档时,GPU 显存有限,难以容纳超长上下文产生的 KV Cache。HPKV 通过将 KV Cache 卸载至主机内存与高性能存储,利用全局存储实现缓存复用,大幅降低首字延迟(TTFT),同时支持上下文长度最大化扩展,满足长文本场景下的高效推理需求。

          • 多轮对话复用场景

            多轮对话是 LLM 的核心应用场景,如智能客服、AI 助手、在线教育等,存在大量重复的系统提示词。随着对话轮次增加,重复计算历史上下文的算力消耗急剧上升。HPKV 通过构建高效的 KV Cache 复用机制,留存会话历史数据,在会话重新激活时从存储介质快速调取,避免重复计算,显著提升计算资源利用率,保障多轮交互的流畅体验。

          • 高并发场景

            海量用户请求引发 KV Cache 读写竞争,传统单机缓存易成热点瓶颈。HPKV 通过将缓存数据从 GPU 显存迁移至大容量存储介质(如 HPFS、高性能 SSD),突破显存物理容量限制,在高并发下容纳更多请求的缓存数据,实现吞吐量显著提升,同时保障首字延迟稳定在用户可接受范围内。通过将存储压力从昂贵的 GPU 显存向更具成本效益的存储介质分层转移,HPKV 充分释放 GPU 的纯粹计算效能,实现单位 Token 推理成本的显著降低。

          操作流程

          下面以如何开通相关服务、配置并使用极速缓存 HPKV 为例,介绍其整体入门流程:

          1. 准备阶段:完成注册、实名认证与服务开通后,可通过新建工单,在问题描述中填写:并行文件服务 HPFS,申请试用 HPKV 服务。

          2. 部署阶段:开通 GPU 物理机 → 创建云容器引擎集群 → 创建并挂载 HPFS → 部署 HPKV 模板。

          3. 验证阶段:检查状态 → 获取访问地址 → 发送测试请求验证功能。

          4. 使用阶段:开始业务推理,获得 HPKV 带来的性能提升。

          详细操作请参见:云容器引擎部署 HPKV 指南。

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  HPFS 助力极速缓存最佳实践
          下一篇 :  云容器引擎部署HPKV指南
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明