推理缓存加速方案概述(1) 产品简介 极速缓存(HPKV,High Performance KVCache)是天翼云自主研发的模型推理多级 KV Cache 缓存服务,扩展了受显存容量限制的 Prefix Cache 能力,将 KV Cache 跨请求复用能力进一步扩展到 CPU 内存(分布式内存池)和高性能存储(SSD、HPFS)。 云容器引擎提供高度可扩展的、高性能的Kubernetes集群、一站式容器服务;兼容主流国产化服务器和操作系统,取得全栈国产化适配认证证书。其整合了镜像、监控、日志、负载均衡、灰度/蓝绿、多种弹性策略、高效调度、集群插件、模板市场等基础能力,帮助企业快速构建和运行可弹性扩展的应用,实现业务的快速交付与持续创新。 模板市场是云容器引擎基于 Kubernetes Helm 提供的应用模板管理与发布能力。您可以将 HPKV 模板(Chart)上传至模板市场,实现快速部署与后期管理,大幅简化 Kubernetes 资源的配置部署过程。 并行文件服务 HPFS 作为极速缓存 HPKV 的三级存储层,承担模型文件、缓存数据的持久化与高并发读写任务。HPFS 让缓存存储从 GB 级显存扩展至 PB 级,通过全链路 RDMA 与 IB/RoCE 高速网络协议提供千万级 IOPS 与 TBps 级吞吐,同时保证亚毫秒级延迟,达成最佳成本效益。
来自: