MindIE NPU多机PD分离 本节介绍如何创建MindIE NPU多机PD分离任务。 本示例基于 MindIE 推理框架,选用 DeepSeekV3.1w8a8c8QuaRot 模型进行多机 PD(Prefill/Decode)分离部署。整体采用 1P × 1D 架构,其中 Prefill 阶段部署 1 个实例,由 1 个 master + 1 个 worker 角色组成,每个角色占用 8 张 NPU 卡;Decode 阶段部署 1 个实例,由 1 个 master + 3 个 worker 角色组成,每个角色占用 8 张 NPU 卡。因此,本任务共使用 6 台机器、48 张 NPU 卡,通过 Prefill 与 Decode 解耦调度,有效降低首 Token 时延并提升整体吞吐性能。 前置条件 1. 确认智算套件已经安装并且全部运行中。 2. 进入智算套件,AI应用管理,队列管理,确保队列存在并且有足够的资源(NPU,CPU,内存)[参考创建队列的文档]。 操作步骤 创建应用 进入智算套件,AI应用列表,在线推理菜单,创建AI应用。 基本信息 应用类型:MindIE 开启PD分离选择 静态PD分离