产品简介

极速缓存（HPKV，High Performance KVCache）是天翼云自主研发的模型推理多级 KV Cache 缓存服务，扩展了受显存容量限制的 Prefix Cache 能力，将 KV Cache 跨请求复用能力进一步扩展到 CPU 内存（分布式内存池）和高性能存储（SSD、HPFS）。
云容器引擎提供高度可扩展的、高性能的Kubernetes集群、一站式容器服务；兼容主流国产化服务器和操作系统，取得全栈国产化适配认证证书。其整合了镜像、监控、日志、负载均衡、灰度/蓝绿、多种弹性策略、高效调度、集群插件、模板市场等基础能力，帮助企业快速构建和运行可弹性扩展的应用，实现业务的快速交付与持续创新。
模板市场是云容器引擎基于 Kubernetes Helm 提供的应用模板管理与发布能力。您可以将 HPKV 模板（Chart）上传至模板市场，实现快速部署与后期管理，大幅简化 Kubernetes 资源的配置部署过程。
并行文件服务 HPFS 作为极速缓存 HPKV 的多级存储层，承担模型文件、缓存数据的持久化与高并发读写任务。HPFS 让缓存存储从 GB 级显存扩展至 PB 级，通过全链路 RDMA 与 IB/RoCE 高速网络协议提供千万级 IOPS 与 TBps 级吞吐，同时保证亚毫秒级延迟，达成最佳成本效益。

组合优势

缓存自动卸载：显存减负与数据流转的核心枢纽
HPKV 系统构建了 GPU HBM → Host DRAM → Local NVMe SSD 或 Remote Storage/HPFS 的多级存储体系，通过跨请求的 KV Cache 深度复用，践行“以存代算”理念，有效消除推理服务中的冗余计算开销，显著降低首Token延迟（TTFT）并提升吞吐量，同时降低算力成本。通过智能沉降与基于热度、存储时长、容量的多策略驱逐机制，在各级存储间自动流转数据，精准淘汰冷数据，实现效率与成本的最优平衡。
智能数据预取：掩盖 I/O 延迟的启动加速核心
在推理任务排队等待阶段，通过与全局调度器的深度联动实现智能预取。系统提前将目标 KV Cache 从 SSD/HPFS 异步预取至 Host 内存和 GPU HBM，确保任务启动时数据“即取即用”，有效掩盖 I/O 延迟，将任务启动等待时间缩减 50% 以上，极大提升用户体验。
分布式存储层：容量与性能的弹性基石
深度集成高性能分布式文件系统 HPFS，将 KV Cache 存储容量从 GB 级显存无缝扩展至 PB 级，实现存储资源的独立弹性伸缩。其通过全链路 RDMA 与 IB/RoCE 高速网络协议，提供千万级 IOPS 与 TBps 级吞吐，同时保证亚毫秒级延迟，使海量历史上下文不仅能“存得下”，更能“取得快”。在多轮对话与高并发场景中，该架构以极速 I/O 替代 GPU重复计算，在充分释放昂贵 HBM 资源的同时，保障了推理服务的超低延迟响应，最终达成了存算效率与成本的最佳平衡。
生态兼容：多框架多硬件的广泛兼容
适配天翼云自研 CTyunOS 系列及主流 Linux 操作系统，广泛兼容多款国产化AI算力硬件。无缝对接 vLLM、SGLang 等主流开源大模型推理引擎，全面支持张量并行（TP）、流水线并行（PP）、数据并行（DP）、PD 分离等主流分布式策略及多种注意力机制的模型，灵活适配并支撑多样化的模型架构演进。

应用场景

长文本推理场景
大模型在处理法律合同分析、学术论文理解、代码理解等长文档时，GPU 显存有限，难以容纳超长上下文产生的 KV Cache。HPKV 通过将 KV Cache 卸载至主机内存与高性能存储，利用全局存储实现缓存复用，大幅降低首字延迟（TTFT），同时支持上下文长度最大化扩展，满足长文本场景下的高效推理需求。
多轮对话复用场景
多轮对话是 LLM 的核心应用场景，如智能客服、AI 助手、在线教育等，存在大量重复的系统提示词。随着对话轮次增加，重复计算历史上下文的算力消耗急剧上升。HPKV 通过构建高效的 KV Cache 复用机制，留存会话历史数据，在会话重新激活时从存储介质快速调取，避免重复计算，显著提升计算资源利用率，保障多轮交互的流畅体验。
高并发场景
海量用户请求引发 KV Cache 读写竞争，传统单机缓存易成热点瓶颈。HPKV 通过将缓存数据从 GPU 显存迁移至大容量存储介质（如 HPFS、高性能 SSD），突破显存物理容量限制，在高并发下容纳更多请求的缓存数据，实现吞吐量显著提升，同时保障首字延迟稳定在用户可接受范围内。通过将存储压力从昂贵的 GPU 显存向更具成本效益的存储介质分层转移，HPKV 充分释放 GPU 的纯粹计算效能，实现单位 Token 推理成本的显著降低。

操作流程

下面以如何开通相关服务、配置并使用极速缓存 HPKV 为例，介绍其整体入门流程：

准备阶段：完成注册、实名认证与服务开通后，可通过新建工单，在问题描述中填写：并行文件服务 HPFS，申请试用 HPKV 服务。
部署阶段：开通 GPU 物理机 → 创建云容器引擎集群 → 创建并挂载 HPFS → 部署 HPKV 模板。
验证阶段：检查状态 → 获取访问地址 → 发送测试请求验证功能。
使用阶段：开始业务推理，获得 HPKV 带来的性能提升。

详细操作请参见：云容器引擎部署 HPKV 指南。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

并行文件服务 HPFS

并行文件服务 HPFS

产品简介

组合优势

应用场景

操作流程

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

并行文件服务 HPFS

并行文件服务 HPFS

产品简介

组合优势

应用场景

操作流程