活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      并行文件服务 HPFS

      并行文件服务 HPFS

      • 并行文件服务 HPFS

      无数据

        • 产品动态
        • 产品介绍
        • 产品定义
        • 术语解释
        • 产品优势
        • 功能特性
        • 产品规格
        • 应用场景
        • 使用限制
        • 协议相关限制
        • 操作系统限制
        • 产品能力地图
        • 计费说明
        • 计费概述
        • 计费模式
        • 按需计费
        • 产品价格
        • 欠费说明
        • 退订说明
        • 账单管理
        • 快速入门
        • 入门流程
        • 准备工作
        • 创建文件系统
        • 挂载文件系统
        • 挂载访问概述
        • HPFS-POSIX客户端挂载
        • HPFS-NFS客户端挂载
        • 用户指南
        • 容量调整
        • 查询文件系统详情
        • 删除文件系统
        • 卸载文件系统
        • HPFS-POSIX客户端卸载
        • HPFS-NFS客户端卸载
        • 权限控制
        • 通过IAM进行权限控制
        • 监控告警
        • 云监控
        • 监控指标
        • 创建告警规则
        • 查看监控数据
        • 协议服务
        • 协议服务概述
        • 创建协议服务
        • 查询协议服务
        • 删除协议服务
        • FILESET管理
        • FILESET概述
        • 创建FILESET
        • 查询FILESET
        • 修改FILESET
        • 删除FILESET
        • 标签管理
        • 概述
        • 标签设计原则及示例
        • 标签管理
        • 数据迁移
        • 迁移概述
        • 命令拷贝
        • 工具迁移
        • 数据快递
        • 云审计
        • 最佳实践
        • 文件系统子目录权限隔离
        • 性能调优
        • GDS加速HPFS存储访问
        • HPFS 助力极速缓存最佳实践
        • 推理缓存加速方案概述
        • 云容器引擎部署HPKV指南
        • API参考
        • API说明
        • 常见问题
        • 概念类
        • 规格类
        • 计费类
        • 管理类
        • 操作类
        • 相关协议
        • 产品服务协议
        • 产品服务等级协议
        • 文档下载
          无相关产品

          本页目录

          帮助中心并行文件服务 HPFS最佳实践HPFS 助力极速缓存最佳实践云容器引擎部署HPKV指南
          云容器引擎部署HPKV指南
          更新时间 2026-04-03 17:46:45
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-04-03 17:46:45
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本文主要介绍使用云容器引擎快速部署极速缓存 HPKV。

          模板市场是云容器引擎基于 Kubernetes Helm 提供的应用模板管理和应用发布的能力,您可以将 HPKV 模板(Chart)上传到模板市场,然后利用模板市场实现快速部署与后期管理,大幅简化 Kubernetes 资源的配置部署过程。

          部署信息

          • 模型:Qwen2.5-32B

          • 推理引擎:vLLM(0.11.2)

          • 实例规格:physical.h6ns.2xlarge11 * 1 台

          支持能力

          • KV Cache:极速缓存 HPKV

          • 三级缓存配置弹性存储:并行文件服务 HPFS

          操作步骤

          开通 GPU 物理机

          1. 您需要先创建至少一台 GPU 物理机,实例类型选择 physical.h6ns.2xlarge11,用于提供模型推理的计算能力,后续容器将纳管此节点上。

          2. 创建物理机实例的具体操作请参见创建物理机。操作系统镜像无需特别关注,后续纳管至容器平台时会自动重装。

          创建云容器引擎集群

          使用极速缓存 HPKV 前,需先创建云容器引擎集群并纳管 GPU 物理机节点,具体操作如下:

          1. 登录云容器引擎控制台,创建集群

            创建云容器引擎的集群,注意选择智算版才能纳管 GPU 物理机,具体操作请参见订购智算集群。容器网络配置的网络插件需选择 Calico,以支持纳管 GPU 物理机节点。

            说明

            默认情况下 Calico 网络模式未开放,需提前提交工单申请开通白名单。
            关于 Calico 网络插件的详细介绍,请参见Calico网络插件。

          2. 纳管 GPU 物理机节点
            在集群创建完成后,将已准备好的 GPU 物理机节点添加至集群。添加节点过程中,选择自动重装操作系统。

            纳管节点为容器通用操作,具体操作请参见纳管节点。

            配置通过kubectl访问集群,具体操作请参见通过kubectl访问集群。

          3. 配置大页内存(HugePages)
            登录 GPU 物理机节点,配置大页内存以提升缓存性能。建议将大页内存大小设置为物理内存的一半。具体配置命令示例:

            1. 配置 2M 的 HugePages 大小为 256G,实时生效

              echo 131072 > /proc/sys/vm/nr_hugepages

              持久化配置,重启后生效,在/etc/sysctl.conf增加一行配置:

              vm.nr_hugepages=131072
            2. 重启 kubelet

              systemctl restart kubelet
            3. 查看配置结果

              kubectl describe nodes

          创建并挂载 HPFS

          极速缓存 HPKV 需使用 HPFS 并行文件系统作为三级存储层,具体操作如下:

          1. 创建文件系统
            登录并行文件服务 HPFS 控制台,创建文件系统。文件系统需选择与 GPU 物理机规格相匹配的集群,否则将无法正常挂载。集群匹配关系的详细说明,请参见产品能力地图。

            具体创建操作请参见创建文件系统。

          2. 挂载文件系统至 GPU 物理机
            将创建好的 HPFS 文件系统挂载至 GPU 物理机的 /mnt/hpfs 目录,以便推理服务读写缓存数据。

            具体挂载操作请参见HPFS-POSIX 客户端挂载。

          部署 HPKV 模板

          完成基础资源准备后,需将 HPKV 的容器镜像与模板文件上传至容器镜像服务与模板市场,具体操作如下:

          1. 获取 HPKV 模板文件

            HPKV 模板文件为 .tgz 格式的压缩包。您可通过工单申请,在问题描述中填写:并行文件服务 HPFS,申请试用 HPKV 服务。

            通过客户经理获取模板文件的下载链接,将 HPKV 模板文件下载至 GPU 物理机上挂载的 HPFS 文件系统目录中。

          2. 开通并配置容器镜像服务

            HPKV 部署需使用容器镜像服务存放相关镜像与模板文件。

            1. 开通企业版:登录容器镜像服务控制台,开通企业版实例。具体操作请参见开通企业版实例。

            2. 创建命名空间:在实例中创建用于存放 HPKV 镜像的命名空间。具体操作请参见容器镜像命名空间。

            3. 创建镜像仓库:在命名空间下创建镜像仓库,用于存放 HPKV 容器镜像。具体操作请参见容器镜像仓库。

            4. 创建 Chart 仓库:在实例中创建 Chart 仓库,用于存放 HPKV 模板文件(.tgz 包),注意仓库名称必须和模版文件的名称一致,具体操作请参见HelmChart命名空间、HelmChart镜像仓库。

          3. 推送容器镜像至镜像仓库

            1. 导入镜像:将获取的容器镜像 tar 包下载至本地。通过客户经理获取容器镜像的下载链接,将容器镜像同样下载至 GPU 物理机上挂载的 HPFS 文件系统目录中。

            2. 使用 Docker 命令导入:

              yum install -y docker
              vim /etc/docker/daemon.json 
              {
                  "runtimes": {
                      "nvidia": {
                          "args": [],
                          "path": "nvidia-container-runtime"
                      }
                  },
                  "data-root": "/data/docker_data"
              }
              systemctl restart docker
              docker ps
              docker load -i <tar-file-path>
            3. 上传镜像:登录镜像仓库,将导入的镜像推送至已创建的镜像仓库。具体操作请根据控制台指引操作或参见推送和拉取容器镜像。

          4. 推送模板文件至 Chart 仓库

            1. 登录 GPU 物理机节点:通过 SSH 登录已纳管的 GPU 物理机。

            2. 推送模板:将获取的 .tgz 模板文件推送至 Chart 仓库。具体操作请根据控制台指引操作或参见推送和拉取Helm Chart。

          5. 下载模型文件

            通过客户经理获取模型文件的下载链接,将模型文件同样下载至 GPU 物理机上挂载的 HPFS 文件系统目录中。

          6. 使用模板发布应用

            1. 查看模板:在容器平台的“模板市场”中,进入“我的模板”,即可看到已上传的 HPKV 模板。

            2. 获取凭证:在容器平台的“配置管理”中,进去“镜像拉取凭证”,创建镜像拉取凭证,具体操作请参见镜像拉取凭证。

            3. 发布模板:在模板包版本中点击“发布”按钮后,在右侧的弹窗中填写“实例名称”,选择待发布的“集群名称”和“命名空间”,按下面示例编辑“values”,点击“确认”完成发布。具体操作请参见模板市场。

              image:
                repository: ds-0001-registry-shanghai15.crs-internal.ctyun.cn/XXXXXX/XXXXXX
                pullPolicy: IfNotPresent
              
              imagePullSecrets:
                name: XXXXXX
              
              commandArgs:
                - |
                  /opt/start.sh 64g true &&
                  exec env VLLM_ENABLE_CTKVC=True VLLM_CTKVC_SDK_PATH=/usr/local/kvstore/lib/ VLLM_CTKVC_GRPC_PORT=50051 \
                  vllm serve /mnt/hpfs/modelscope/models/Qwen/Qwen2.5-32B-Instruct \
                  --dtype=auto \
                  --block-size=64 \
                  --served-model-name Qwen2.5-32B-Instruct \
                  --enable-auto-tool-choice \
                  --tool-call-parser hermes \
                  --pipeline-parallel-size 1 \
                  --tensor-parallel-size 4 \
                  --port 8000 \
                  --cpu-offload-gb=0 \
                  --enforce-eager \
                  --gpu-memory-utilization=0.95 \
                  --max-model-len=32768 \
                  --max-num-batched-tokens=32768 \
                  --disable-log-requests \
                  --kv-transfer-config '{"kv_connector":"KVStoreConnectorV1", "kv_role":"kv_both"}'
              
              resources:
                limits:
                  hugepages2Mi: 200Gi
                  memory: 300Gi
                requests:
                  hugepages2Mi: 200Gi
                  memory: 300Gi
              
              service:
                type: NodePort
                port: 8000
                nodePort: 31800

              关键参数说明

              参数说明
              --kv-transfer-config启用极速缓存 HPKV 功能,kv_connector 指定连接器类型,kv_role 设置为 kv_both 表示同时支持读写缓存,无需修改
              --repository需要设置为容器镜像的下载地址,参见第3步
              --imagePullSecrets需要设置为镜像拉取的凭证,参见第6步
              “ /mnt/hpfs/modelscope/models/Qwen/Qwen2.5-32B-Instruct”需要设置为模型文件下载地址,参见第5步

          7. 验证服务启动

            通过 curl 命令发送推理请求,验证缓存是否生效:

            curl http://XXX.XXX.XXX.XXX:8000/v1/models
            curl -X POST http://XXX.XXX.XXX.XXX:8000/v1/completions \
              -H "Content-Type: application/json" \
              -d '{
                "model": "/home/user/models/Qwen/Qwen2.5-0.5B-Instruct/",
                "prompt": "请介绍一下天翼云",
                "max_tokens": 100
              }'
          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  推理缓存加速方案概述
          下一篇 :  API参考
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明