本示例基于 vLLM 推理框架，选用 deepseek-r1-distill-qwen-7b 模型进行多机部署。整体部署 1 个推理应用实例，由 1 个 master + 1 个 worker 角色组成，每个角色占用 1 张 GPU 卡，因此本任务共使用 2 张 GPU 卡，用于验证模型在多机环境下的推理能力。

前置条件

1. 确认智算套件已经安装并且全部运行中。

2. 进入智算套件 -> AI应用管理 -> 队列管理，确保队列存在并且有足够的资源(GPU,CPU,内存) [参考创建队列的文档]。

操作步骤

创建应用

1. 进入智算套件 -> AI应用列表 -> 在线推理菜单，创建AI应用。

基本信息

应用类型：vLLM

应用数：1

配置信息

推理类型选择多机，推理框架、框架版本、推理模型、模型版本根据实际情况选择即可。简单的示例：

推理框架：nvidia-vllm

框架版本：v0.11.2

推理模型：deepseek-r1-distill-qwen-7b

模型版本：v1

队列：选择存在且资源足够的的队列

Master

CPU，内存，共享内存可以不填，GPU填：1，自定义资源rdma/rdma_shared_device_a 填：1 （仅集群存在裸金属GPU节点时填写）。

Worker

副本数 1 CPU，内存，共享内存可以不填，GPU填：1，自定义资源rdma/rdma_shared_device_a 填：1（仅集群存在裸金属GPU节点时填写）。

点击确认完成创建。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

智算套件

智算套件

前置条件

操作步骤

创建应用

基本信息

配置信息

Master

Worker

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

智算套件

智算套件

前置条件

操作步骤

创建应用

基本信息

配置信息

Master

Worker