前置条件
1. 确认智算套件已经安装并且全部运行中
2. 进入智算套件,AI应用管理,队列管理,确保队列存在并且有足够的资源(GPU,CPU,内存,rdma/rdma_shared_device_a) [参考创建队列的文档]
操作步骤
创建任务
进入智算套件,AI应用列表,在线推理菜单,创建AI应用
基本信息
应用类型:vLLM
开启PD分离选择:静态PD分离
推理类型选择:多机
配置信息
推理框架,框架版本,推理模型,模型版本,Prefill 实例数和副本数,Decode 实例数和副本数,根据实际情况选择。
注意
Prefill 实例数和副本数,Decode 实例数和副本数用默认参数即可。
Prefill 菜单中的 PrefillMaster, PrefillWorker,Decode 菜单中的 DecodeMaster,DecodeWorker 启动参数用默认参数即可。
Prefill 菜单中的 PrefillMaster, PrefillWorker 中的资源都要填 GPU 和自定义资源 rdma/rdma_shared_device_a。
Decode 菜单中的 DecodeMaster,DecodeWorker 中的资源都要填 GPU 和自定义资源 rdma/rdma_shared_device_a。
简单的示例:
推理框架: nvidia-vllm
框架版本:v0.11.2
推理模型:deepseek-r1-distill-qwen-1.5b
模型版本:v1
队列:选择存在且资源足够的的队列
PrefillMaster
CPU,内存,共享内存不填,GPU填:4, 自定义资源 rdma/rdma_shared_device_a: 1
PrefillWorker
CPU,内存,共享内存不填,GPU填:4, 自定义资源 rdma/rdma_shared_device_a: 1
DecodeMaster
CPU,内存,共享内存不填,GPU填:4, 自定义资源 rdma/rdma_shared_device_a: 1
DecodeWorker
CPU,内存,共享内存不填,GPU填:4, 自定义资源 rdma/rdma_shared_device_a: 1
点击确认完成创建。