vLLM GPU多机推理
更新时间 2026-03-05 09:30:23
最近更新时间: 2026-03-05 09:30:23
本节介绍如何创建vLLM GPU多机推理任务。
本示例基于 vLLM 推理框架,选用 deepseek-r1-distill-qwen-7b 模型进行多机部署。整体部署 1 个推理应用实例,由 1 个 master + 1 个 worker 角色组成,每个角色占用 1 张 GPU 卡,因此本任务共使用 2 张 GPU 卡,用于验证模型在多机环境下的推理能力。
前置条件
1. 确认智算套件已经安装并且全部运行中。
2. 进入智算套件 -> AI应用管理 -> 队列管理,确保队列存在并且有足够的资源(GPU,CPU,内存) [参考创建队列的文档]。
操作步骤
创建应用
1. 进入智算套件 -> AI应用列表 -> 在线推理菜单,创建AI应用。
基本信息
应用类型:vLLM
应用数:1
配置信息
推理类型选择多机,推理框架、框架版本、推理模型、模型版本根据实际情况选择即可。简单的示例:
推理框架:nvidia-vllm
框架版本:v0.11.2
推理模型:deepseek-r1-distill-qwen-7b
模型版本:v1
队列:选择存在且资源足够的的队列
Master
CPU,内存,共享内存可以不填,GPU填:1, 自定义资源rdma/rdma_shared_device_a 填:1 (仅集群存在裸金属GPU节点时填写)。
Worker
副本数 1 CPU,内存,共享内存可以不填,GPU填:1, 自定义资源rdma/rdma_shared_device_a 填:1(仅集群存在裸金属GPU节点时填写)。
点击确认完成创建。