本示例基于 MindIE 推理框架，选用 deepseek-r1-distill-qwen-1.5b 模型进行单机 PD（Prefill/Decode）分离部署。部署形态为 2P × 2D 架构，其中 Prefill 阶段使用 2 个实例，每个实例占用 1 张 NPU 卡；Decode 阶段使用 2 个实例，每个实例占用 1 张 NPU 卡。因此，本任务共需 4 张 NPU 卡，实现 Prefill 与 Decode 解耦，以提升首 Token 时延与整体吞吐性能。

前置条件

1. 确认智算套件已经安装并且全部运行中。

2. 进入智算套件，AI应用管理，队列管理，确保队列存在并且有足够的资源(NPU,CPU,内存) [参考创建队列的文档]。

操作步骤

创建应用

进入智算套件，AI应用列表，在线推理菜单，创建AI应用。

基本信息

应用类型：MindIE

开启PD分离选择静态PD分离

配置信息

推理类型选择单机，推理框架，框架版本，推理模型，模型版本根据实际情况选择。简单的示例：

推理框架： ascend-mindie

框架版本：2.2.RC1-800I-A2-py311-openeuler24.03-lts

推理模型：deepseek-r1-distill-qwen-1.5b

模型版本：v1

队列：选择存在且资源足够的的队列

Prefill

实例数：2

PrefillMaster 的资源菜单：CPU，内存，共享内存可以不填，NPU填：1

Decode

实例数：2

DecodeMaster 的资源菜单：CPU，内存，共享内存可以不填，NPU填：1

点击确认完成创建。

参数调整

因 MindIE 框架不支持通过启动参数修改配置，智算套件推理应用支持通过环境变量覆盖默认配置参数。

环境变量	MindIE配置文件参数名	默认值	适用阶段	环境变量添加位置	说明
MINDIE_MODEL_NAME	modelName	推理 Inference 名称(例：inference-ia89ho)	Prefill / Decode	prefillmaster / decodemaster	推理服务接口模型名称
MINDIE_MODEL_WEIGHT_PATH	modelWeightPath	/data/models	Prefill / Decode	prefillmaster / decodemaster	模型文件路径（通常情况不用修改）
MINDIE_TP	tp	等于 NPU 卡数量	Prefill / Decode	prefillmaster / decodemaster
MINDIE_MAX_SEQ_LEN	maxSeqLen	2560	Prefill / Decode	prefillmaster / decodemaster	模型最大序列长度
MINDIE_MAX_INPUT_TOKEN_LEN	maxInputTokenLen	2048	Prefill / Decode	prefillmaster / decodemaster	最大输入 Token 长度
MINDIE_MAX_PREFILL_BATCH_SIZE	maxPrefillBatchSize	50	Prefill	prefillmaster / decodemaster
MINDIE_MAX_PREFILL_TOKENS	maxPrefillTokens	8192	Prefill	prefillmaster / decodemaster
MINDIE_MAX_BATCH_SIZE	maxBatchSize	200	Decode	prefillmaster / decodemaster
MINDIE_MAX_ITER_TIMES	maxIterTimes	512	Decode	prefillmaster / decodemaster

例如修改modelName=test maxSeqLen=18000 maxInputTokenLen=18000 maxPrefillTokens=18000 maxIterTimes=18000，在prefillmaster和decodemaster中分别设置对应的环境变量

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

智算套件

智算套件

前置条件

操作步骤

创建应用

基本信息

配置信息

Prefill

Decode

参数调整

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

智算套件

智算套件

前置条件

操作步骤

创建应用

基本信息

配置信息

Prefill

Decode

参数调整