MindIE NPU单机推理
更新时间 2026-03-05 09:29:56
最近更新时间: 2026-03-05 09:29:56
本节介绍如何创建MindIE NPU单机推理任务。
本示例基于 MindIE 推理框架,选用 deepseek-r1-distill-qwen-1.5b 模型进行单机部署。整体部署 2 个推理应用实例,每个实例占用 1 张 NPU 卡,因此本任务共需 2 张 NPU 卡,用于验证轻量级模型在单机环境下的推理能力。
前置条件
1. 确认智算套件已经安装并且全部运行中。
2. 进入智算套件,AI应用管理,队列管理,确保队列存在并且有足够的资源(NPU,CPU,内存) [参考创建队列的文档]。
操作步骤
创建应用
进入智算套件,AI应用列表,在线推理菜单,创建AI应用。
基本信息
应用类型:MindIE
应用数:2
配置信息
推理类型选择 单机,推理框架,框架版本,推理模型,模型版本根据实际情况选择。简单的示例:
推理框架:ascend-mindie
框架版本:2.2.RC1-800I-A2-py311-openeuler24.03-lts
推理模型:deepseek-r1-distill-qwen-1.5b
模型版本:v1
队列:选择存在且资源足够的的队列
Master:CPU,内存,共享内存可以不填,NPU填:1
点击确认完成创建。
参数调整
因 MindIE 框架不支持通过启动参数修改配置,智算套件推理应用支持通过 环境变量 覆盖默认配置参数。
| 环境变量 | MindIE配置文件参数名 | 默认值 | 环境变量添加位置 | 说明 |
|---|---|---|---|---|
| MINDIE_MODEL_NAME | modelName | 推理 Inference 名称(例:inference-ia89ho) | Master | 推理服务接口模型名称 |
| MINDIE_MODEL_WEIGHT_PATH | modelWeightPath | /data/models | Master | 模型权重路径 |
| MINDIE_MAX_SEQ_LEN | maxSeqLen | 2560 | Master | |
| MINDIE_MAX_INPUT_TOKEN_LEN | maxInputTokenLen | 2048 | Master | |
| MINDIE_MAX_PREFILL_BATCH_SIZE | maxPrefillBatchSize | 50 | Master | |
| MINDIE_MAX_PREFILL_TOKENS | maxPrefillTokens | 4096 | Master | |
| MINDIE_MAX_BATCH_SIZE | maxBatchSize | 200 | Master | |
| MINDIE_MAX_ITER_TIMES | maxIterTimes | 512 | Master |
例如修改modelName=test maxSeqLen=8000 maxInputTokenLen=8000 maxPrefillTokens=8000 maxIterTimes=8000,在Master中设置对应的环境变量