什么是 GPUStack ?
GPUStack云服务是基于开源GPUStack构建的托管式AI模型部署平台,让您无需管理基础设施,即可在高性能GPU集群上轻松部署和运行各类AI模型。
GPUStack具备以下核心能力:
资源管理:提供自动化GPU资源调度与集群管理,支持异构GPU设备统一纳管,实现资源利用率最大化与成本最优化;
模型部署:支持主流开源大模型一键部署,兼容Hugging Face、ModelScope等模型源,集成vLLM、SGLang和TensorRT-LLM等高性能推理引擎,满足不同场景性能需求;
智能运维:内置自动扩缩容、故障转移与负载均衡机制,提供实时性能监控与告警,确保服务高可用性与稳定性;
安全管控:提供完善的认证授权体系与网络隔离策略,支持私有化部署与数据安全保障,满足企业级安全合规要求。
通过部署 GPUStack 应用,您可以可视化管理GPU资源调度,快速搭建专属模型推理集群,为AI应用提供专属模型推理服务。
使用 GPUStack 部署模型推理平台指南
步骤1:订购GPU资源并部署GPUStack平台
登录天翼云官网,选择应用商城 - 公有云生态专区,点击立即选购,进入应用专区页。
在专区页,点击“立即选购”,进入应用选购页。
在应用选购列表中,找到“GPUStack-单机版”,点击“立即订购”。
按提示订购“GPUstack 单机版”,点击“确认下单”。
支付成功后,在我的应用页,查看应用状态,当应用状态为运行中时,代表GPUStack平台部署完成。
点击“查看应用”按钮,在应用详情页点击“立即使用”或在浏览器中输入复制的应用入口,即可访问GPUstack。
步骤2:部署模型
登录GPUStack平台。初次进入GPUStack平台,GPUstack默认账号为admin,密码为gpustack,正确输入用户名及密码后,点击“登录”,进入平台。
说明
GPUStack平台的用户名及密码,可在登录后进行修改。
进入模型库页,选择适合的模型,点击需要部署的模型卡片,本文以“Qwen3-32B”模型为例。
配置模型参数。
1)基本信息:点击基本信息tab,确认模型、推理后端、后端版本相互匹配,例如:“Qwen-32B”模型,推理后端为“vLLM”,后端版本建议选择“0.15.1”.
2)调度:点击“调度页签”GPU卡调度配置。调度方式推荐选择“手动”,GPU器选择推荐选择全部GPU卡,也可以根据您的实际调度情况进行分配。
3)高级:点击“高级”页签,点击“添加参数”按钮,增加以下2个后端参数 :
--tool-call-parser hermes --enable-auto-tool-choice4)参数配置完成后,点击“提交”按钮,开始部署模型。
您可以在“部署”模块中查看部署进度,由于模型文件较大,从获取到部署大约需要20分钟左右的时间。
模型部署完成后,您可以在GPUStack平台中,使用“试验场”模块中的“对话”能力,进行简单的对话以验证模型是否部署成功。