本示例基于 MindIE 推理框架，选用 DeepSeek-V3.1-w8a8c8-QuaRot 模型进行多机部署。整体部署 1 个推理应用实例，由 1 个 Master+ 1 个 Worker 角色组成，每个角色占用 8 张 NPU 卡，因此本任务共使用 2 台机器、16 张 NPU 卡，用于验证模型在多机环境下的推理能力。

前置条件

1. 确认智算套件已经安装并且全部运行中。

2. 进入智算套件，AI应用管理，队列管理，确保队列存在并且有足够的资源(NPU,CPU,内存) [参考创建队列的文档]。

操作步骤

创建应用

进入智算套件，AI应用列表，在线推理菜单，创建AI应用。

基本信息

应用类型：MindIE

应用数：1

配置信息

推理类型选择多机，推理框架，框架版本，推理模型，模型版本根据实际情况选择。简单的示例：

推理框架： ascend-mindie

框架版本：2.2.RC1-800I-A2-py311-openeuler24.03-lts

推理模型：DeepSeek-V3.1-w8a8c8-QuaRot

模型版本：v1

队列：选择存在且资源足够的的队列

Master

CPU，内存，共享内存可以不填，NPU填：8。

Worker

副本数 1，CPU，内存，共享内存可以不填，NPU填：8。

点击确认完成创建。

参数调整

因 MindIE 框架不支持通过启动参数修改配置，智算套件推理应用支持通过环境变量覆盖默认配置参数。

环境变量	MindIE配置文件参数名	默认值	环境变量添加位置	说明
MINDIE_MODEL_NAME	modelName	推理 Inference 名称（例：inference-ia89ho）	Master	推理服务接口模型名称
MINDIE_MODEL_WEIGHT_PATH	modelWeightPath	/data/models	Master	模型权重路径
MINDIE_DP	dp	master + worker 副本数	Master
MINDIE_TP	tp	master NPU 卡数量（Decode 默认 1）	Master
MINDIE_CP	cp	1	Master
MINDIE_SP	sp	1	Master
MINDIE_PP	pp	1	Master
MINDIE_MOE_EP	moe_ep	master NPU 数量 ×（master + worker 数量）	Master
MINDIE_MOE_TP	moe_tp	1	Master
MINDIE_MAX_SEQ_LEN	maxSeqLen	2560	Master
MINDIE_MAX_INPUT_TOKEN_LEN	maxInputTokenLen	2048	Master
MINDIE_MAX_PREFILL_BATCH_SIZE	maxPrefillBatchSize	50	Master
MINDIE_MAX_PREFILL_TOKENS	maxPrefillTokens	4096	Master
MINDIE_MAX_BATCH_SIZE	maxBatchSize	200	Master
MINDIE_MAX_ITER_TIMES	maxIterTimes	512	Master

例如修改

Master: modelName=test maxSeqLen=5000 maxInputTokenLen=5000 maxPrefillTokens=5000 maxIterTimes=5000，dp=1，tp=16 在master中设置对应的环境变量

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

智算套件

智算套件

前置条件

操作步骤

创建应用

基本信息

配置信息

Master

Worker

参数调整

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

智算套件

智算套件

前置条件

操作步骤

创建应用

基本信息

配置信息

Master

Worker

参数调整