创建vLLM NPU多机PD分离任务
更新时间 2026-02-11 21:08:35
最近更新时间: 2026-02-11 21:08:35
本节介绍如何创建vLLM NPU多机PD分离任务。
前置条件
1. 确认智算套件已经安装并且全部运行中
2. 进入智算套件,AI应用管理,队列管理,确保队列存在并且有足够的资源(NPU,CPU,内存) [参考创建队列的文档]
操作步骤
创建任务
进入智算套件,AI应用列表,在线推理菜单,创建AI应用
基本信息
应用类型:vLLM
开启PD分离选择 静态PD分离
推理类型选择 多机
配置信息
推理框架,框架版本,推理模型,模型版本,Prefill 实例数和副本数,Decode 实例数和副本数,根据实际情况选择。
注意
Prefill 实例数和副本数,Decode 实例数和副本数用默认参数即可。
Prefill 菜单中的 PrefillMaster, PrefillWorker,Decode 菜单中的 DecodeMaster,DecodeWorker 启动参数用默认参数即可。
Prefill 菜单中的 PrefillMaster, PrefillWorker 中的资源都要填 NPU。
Decode 菜单中的 DecodeMaster,DecodeWorker 中的资源都要填 NPU。
简单的示例:
推理框架: ascend-vllm
框架版本:v0.11.0rc2
推理模型:deepseek-r1-distill-qwen-1.5b
模型版本:v1
队列:选择存在且资源足够的的队列
PrefillMaster
CPU,内存,共享内存不填,NPU填:4
PrefillWorker
CPU,内存,共享内存不填,NPU填:4
DecodeMaster
CPU,内存,共享内存不填,NPU填:4
DecodeWorker
CPU,内存,共享内存不填,NPU填:4
点击确认完成创建。