产品概述

1.1 产品介绍

GPUStack云服务是基于开源GPUStack构建的托管式AI模型部署平台，让您无需管理基础设施，即可在高性能GPU集群上轻松部署和运行各类AI模型，支持单机版和集群版（Worker、Server）。

	单机版	集群版
面向用户	个人、中小团队或企业内部	企业研发团队、实验室、AI算力平台
适用场景	1. 个人开发者的大模型微调、推理效果验证 2. 小团队的算法原型开发、单卡模型性能测试 3. 教学科研场景的小规模 AI 实验 4. 临时算力需求（如短期模型 demo 制作)	1. 企业大模型训练 / 推理的规模化算力需求 2. 多团队共享 GPU 算力池的资源管控场景 3. 高并发模型服务（如智能客服等） 4. 异构 GPU 资源混合调度（支持 NVIDIA/昇腾等）
资源配置	单GPU服务器	Server节点：8C/16G 计算型服务器 Worker节点：1~N台GPU服务器（支持英伟达、昇腾等不同厂商GPU卡）

资源管理：提供自动化GPU资源调度与集群管理，支持异构GPU设备统一纳管，实现资源利用率最大化与成本最优化；
模型部署：支持主流开源大模型一键部署，兼容Hugging Face、ModelScope等模型源，集成vLLM、SGLang和TensorRT-LLM等高性能推理引擎，满足不同场景性能需求；
智能运维：内置自动扩缩容、故障转移与负载均衡机制，提供实时性能监控与告警，确保服务高可用性与稳定性；
安全管控：提供完善的认证授权体系与网络隔离策略，支持私有化部署与数据安全保障，满足企业级安全合规要求。

自动处理底层GPU资源调度、模型优化和扩展，让您专注于应用开发而非运维。

1.零运维负担：无需管理GPU驱动、CUDA版本或集群配置；

2.开箱即用：集成vLLM、SGLang 和 TensorRT-LLM等高性能推理引擎，支持自定义推理框架；

3.一键部署：支持从Hugging Face、ModelScope、或本地直接部署，支持自动扩缩容、版本升降级；

4.性能优化配置：提供预调优模式，用于低延迟或高吞吐量；

5.运维能力：支持自动故障恢复、负载均衡、监控、认证和访问控制。

更多产品使用方法请参考附件。

说明

GPUstack默认账号为admin，密码为gpustack；

如需修改，可在进入应⽤中调整。