产品简介
极速缓存(HPKV,High Performance KVCache)是天翼云自主研发的模型推理多级 KV Cache 缓存服务,扩展了受显存容量限制的 Prefix Cache 能力,将 KV Cache 跨请求复用能力进一步扩展到 CPU 内存(分布式内存池)和高性能存储(SSD、HPFS)。
云容器引擎提供高度可扩展的、高性能的Kubernetes集群、一站式容器服务;兼容主流国产化服务器和操作系统,取得全栈国产化适配认证证书。其整合了镜像、监控、日志、负载均衡、灰度/蓝绿、多种弹性策略、高效调度、集群插件、模板市场等基础能力,帮助企业快速构建和运行可弹性扩展的应用,实现业务的快速交付与持续创新。
模板市场是云容器引擎基于 Kubernetes Helm 提供的应用模板管理与发布能力。您可以将 HPKV 模板(Chart)上传至模板市场,实现快速部署与后期管理,大幅简化 Kubernetes 资源的配置部署过程。
并行文件服务 HPFS 作为极速缓存 HPKV 的三级存储层,承担模型文件、缓存数据的持久化与高并发读写任务。HPFS 让缓存存储从 GB 级显存扩展至 PB 级,通过全链路 RDMA 与 IB/RoCE 高速网络协议提供千万级 IOPS 与 TBps 级吞吐,同时保证亚毫秒级延迟,达成最佳成本效益。
组合优势
缓存自动卸载:显存减负与数据流转的核心枢纽
HPKV 系统构建了 GPU HBM → Host DRAM → Local NVMe SSD 或 Remote Storage/HPFS 的多级存储体系,通过跨请求的 KV Cache 深度复用,践行“以存代算”理念,有效消除推理服务中的冗余计算开销,显著降低首Token延迟(TTFT)并提升吞吐量,同时降低算力成本。通过智能沉降与基于热度、存储时长、容量的多策略驱逐机制,在各级存储间自动流转数据,精准淘汰冷数据,实现效率与成本的最优平衡。
智能数据预取:掩盖 I/O 延迟的启动加速核心
在推理任务排队等待阶段,通过与全局调度器的深度联动实现智能预取。系统提前将目标 KV Cache 从 SSD/HPFS 异步预取至 Host 内存和 GPU HBM,确保任务启动时数据“即取即用”,有效掩盖 I/O 延迟,将任务启动等待时间缩减 50% 以上,极大提升用户体验。
分布式存储层:容量与性能的弹性基石
深度集成高性能分布式文件系统 HPFS,将 KV Cache 存储容量从 GB 级显存无缝扩展至 PB 级,实现存储资源的独立弹性伸缩。其通过全链路 RDMA 与 IB/RoCE 高速网络协议,提供千万级 IOPS 与 TBps 级吞吐,同时保证亚毫秒级延迟,使海量历史上下文不仅能“存得下”,更能“取得快”。在多轮对话与高并发场景中,该架构以极速 I/O 替代 GPU重复计算,在充分释放昂贵 HBM 资源的同时,保障了推理服务的超低延迟响应,最终达成了存算效率与成本的最佳平衡。
生态兼容:多框架多硬件的广泛兼容
适配天翼云自研 CTyunOS 系列及主流 Linux 操作系统,广泛兼容多款国产化AI算力硬件。无缝对接 vLLM、SGLang 等主流开源大模型推理引擎,全面支持张量并行(TP)、流水线并行(PP)、数据并行(DP)、PD 分离等主流分布式策略及多种注意力机制的模型,灵活适配并支撑多样化的模型架构演进。
应用场景
长文本推理场景
大模型在处理法律合同分析、学术论文理解、代码理解等长文档时,GPU 显存有限,难以容纳超长上下文产生的 KV Cache。HPKV 通过将 KV Cache 卸载至主机内存与高性能存储,利用全局存储实现缓存复用,大幅降低首字延迟(TTFT),同时支持上下文长度最大化扩展,满足长文本场景下的高效推理需求。
多轮对话复用场景
多轮对话是 LLM 的核心应用场景,如智能客服、AI 助手、在线教育等,存在大量重复的系统提示词。随着对话轮次增加,重复计算历史上下文的算力消耗急剧上升。HPKV 通过构建高效的 KV Cache 复用机制,留存会话历史数据,在会话重新激活时从存储介质快速调取,避免重复计算,显著提升计算资源利用率,保障多轮交互的流畅体验。
高并发场景
海量用户请求引发 KV Cache 读写竞争,传统单机缓存易成热点瓶颈。HPKV 通过将缓存数据从 GPU 显存迁移至大容量存储介质(如 HPFS、高性能 SSD),突破显存物理容量限制,在高并发下容纳更多请求的缓存数据,实现吞吐量显著提升,同时保障首字延迟稳定在用户可接受范围内。通过将存储压力从昂贵的 GPU 显存向更具成本效益的存储介质分层转移,HPKV 充分释放 GPU 的纯粹计算效能,实现单位 Token 推理成本的显著降低。
操作流程
下面以如何开通相关服务、配置并使用极速缓存 HPKV 为例,介绍其整体入门流程:
准备阶段:完成注册、实名认证与服务开通后,可通过新建工单,在问题描述中填写:并行文件服务 HPFS,申请试用 HPKV 服务。
部署阶段:开通 GPU 物理机 → 创建云容器引擎集群 → 创建并挂载 HPFS → 部署 HPKV 模板。
验证阶段:检查状态 → 获取访问地址 → 发送测试请求验证功能。
使用阶段:开始业务推理,获得 HPKV 带来的性能提升。
详细操作请参见:云容器引擎部署 HPKV 指南。