MindIE NPU单机PD分离(1) 本节介绍如何创建MindIE NPU单机PD分离任务。 本示例基于 MindIE 推理框架,选用 deepseekr1distillqwen1.5b 模型进行单机 PD(Prefill/Decode)分离部署。部署形态为 2P × 2D 架构,其中 Prefill 阶段使用 2 个实例,每个实例占用 1 张 NPU 卡;Decode 阶段使用 2 个实例,每个实例占用 1 张 NPU 卡。因此,本任务共需 4 张 NPU 卡,实现 Prefill 与 Decode 解耦,以提升首 Token 时延与整体吞吐性能。 前置条件 1. 确认智算套件已经安装并且全部运行中。 2. 进入智算套件,AI应用管理,队列管理,确保队列存在并且有足够的资源(NPU,CPU,内存) [参考创建队列的文档]。 操作步骤 创建应用 进入智算套件,AI应用列表,在线推理菜单,创建AI应用。 基本信息 应用类型:MindIE 开启PD分离选择 静态PD分离 配置信息 推理类型选择单机,推理框架,框架版本,推理模型,模型版本根据实际情况选择。简单的示例: 推理框架: ascendmindie 框架版本:2.2.RC1800IA2py311openeuler24.03lts 推理模型:deepseekr1distillqwen1.5b 模型版本:v1 队列:选择存在且资源足够的的队列
来自: