vLLM GPU多机PD分离(1) 本节介绍如何创建vLLM GPU多机PD分离任务。 前置条件 1. 确认智算套件已经安装并且全部运行中 2. 进入智算套件,AI应用管理,队列管理,确保队列存在并且有足够的资源(GPU,CPU,内存,rdma/rdmashareddevicea) [参考创建队列的文档] 操作步骤 创建任务 进入智算套件,AI应用列表,在线推理菜单,创建AI应用 基本信息 应用类型:vLLM 开启PD分离选择:静态PD分离 推理类型选择:多机 配置信息 推理框架,框架版本,推理模型,模型版本,Prefill 实例数和副本数,Decode 实例数和副本数,根据实际情况选择。 注意 Prefill 实例数和副本数,Decode 实例数和副本数用默认参数即可。 Prefill 菜单中的 PrefillMaster, PrefillWorker,Decode 菜单中的 DecodeMaster,DecodeWorker 启动参数用默认参数即可。 Prefill 菜单中的 PrefillMaster, PrefillWorker 中的资源都要填 GPU 和自定义资源 rdma/rdmashareddevicea。 Decode 菜单中的 DecodeMaster,DecodeWorker 中的资源都要填 GPU 和自定义资源 rdma/rdmashareddevicea。 简单的示例: 推理框架: nvidiavllm 框架版本:v0.11.2 推理模型:deepseekr1distillqwen1.5b 模型版本:v1 队列:选择存在且资源足够的的队列
来自: