通过GPUStack部署模型推理平台-轻量型云主机-最佳实践

什么是 GPUStack ？

GPUStack云服务是基于开源GPUStack构建的托管式AI模型部署平台，让您无需管理基础设施，即可在高性能GPU集群上轻松部署和运行各类AI模型。

GPUStack具备以下核心能力：

资源管理：提供自动化GPU资源调度与集群管理，支持异构GPU设备统一纳管，实现资源利用率最大化与成本最优化；
模型部署：支持主流开源大模型一键部署，兼容Hugging Face、ModelScope等模型源，集成vLLM、SGLang和TensorRT-LLM等高性能推理引擎，满足不同场景性能需求；
智能运维：内置自动扩缩容、故障转移与负载均衡机制，提供实时性能监控与告警，确保服务高可用性与稳定性；
安全管控：提供完善的认证授权体系与网络隔离策略，支持私有化部署与数据安全保障，满足企业级安全合规要求。

通过部署 GPUStack 应用，您可以可视化管理GPU资源调度，快速搭建专属模型推理集群，为AI应用提供专属模型推理服务。

登录GPUStack平台。初次进入GPUStack平台，GPUstack默认账号为admin，密码为gpustack，正确输入用户名及密码后，点击“登录”，进入平台。
说明
GPUStack平台的用户名及密码，可在登录后进行修改。
进入模型库页，选择适合的模型，点击需要部署的模型卡片，本文以“Qwen3-32B”模型为例。
配置模型参数。
1）基本信息：点击基本信息tab，确认模型、推理后端、后端版本相互匹配，例如：“Qwen-32B”模型，推理后端为“vLLM”，后端版本建议选择“0.15.1”.

2）调度：点击“调度页签”GPU卡调度配置。调度方式推荐选择“手动”，GPU器选择推荐选择全部GPU卡，也可以根据您的实际调度情况进行分配。

3）高级：点击“高级”页签，点击“添加参数”按钮，增加以下2个后端参数：
```
--tool-call-parser hermes
--enable-auto-tool-choice
```
4）参数配置完成后，点击“提交”按钮，开始部署模型。

您可以在“部署”模块中查看部署进度，由于模型文件较大，从获取到部署大约需要20分钟左右的时间。
模型部署完成后，您可以在GPUStack平台中，使用“试验场”模块中的“对话”能力，进行简单的对话以验证模型是否部署成功。