vLLM NPU多机推理(1) 本节介绍如何创建vLLM NPU多机推理。 本示例基于 vLLM 推理框架,选用 deepseekr1distillqwen7b 模型进行多机部署。整体部署 1 个推理应用实例,由 1 个 master + 1 个 worker 角色组成,每个角色占用 1 张 NPU 卡,因此本任务共使用 2 张 NPU 卡,用于验证模型在多机环境下的推理能力。 前置条件 1. 确认智算套件已经安装并且全部运行中。 2. 进入智算套件,AI应用管理,队列管理,确保队列存在并且有足够的资源(NPU,CPU,内存) [参考创建队列的文档]。 操作步骤 创建应用 进入智算套件,AI应用列表,在线推理菜单,创建AI应用。 基本信息 应用类型:vLLM 应用数:1 配置信息 推理类型选择多机,推理框架、框架版本、推理模型、模型版本、根据实际情况选择。简单的示例: 推理框架: ascendvllm 框架版本:v0.14.0rc1 推理模型:deepseekr1distillqwen7b 模型版本:v1 队列:选择存在且资源足够的的队列
来自: