产品概述
1.1 产品介绍
GPUStack云服务是基于开源GPUStack构建的托管式AI模型部署平台,让您无需管理基础设施,即可在高性能GPU集群上轻松部署和运行各类AI模型,支持单机版和集群版(Worker、Server)。
单机版 | 集群版 | |
| 面向用户 | 个人、中小团队或企业内部 | 企业研发团队、实验室、AI算力平台 |
| 适用场景 | 1. 个人开发者的大模型微调、推理效果验证 2. 小团队的算法原型开发、单卡模型性能测试 3. 教学科研场景的小规模 AI 实验 4. 临时算力需求(如短期模型 demo 制作) | 1. 企业大模型训练 / 推理的规模化算力需求 2. 多团队共享 GPU 算力池的资源管控场景 3. 高并发模型服务(如智能客服等) 4. 异构 GPU 资源混合调度(支持 NVIDIA/昇腾等) |
| 资源配置 | 单GPU服务器 |
|
1.2 产品核心能力
资源管理:提供自动化GPU资源调度与集群管理,支持异构GPU设备统一纳管,实现资源利用率最大化与成本最优化;
模型部署:支持主流开源大模型一键部署,兼容Hugging Face、ModelScope等模型源,集成vLLM、SGLang和TensorRT-LLM等高性能推理引擎,满足不同场景性能需求;
智能运维:内置自动扩缩容、故障转移与负载均衡机制,提供实时性能监控与告警,确保服务高可用性与稳定性;
安全管控:提供完善的认证授权体系与网络隔离策略,支持私有化部署与数据安全保障,满足企业级安全合规要求。
1.3 产品优势
自动处理底层GPU资源调度、模型优化和扩展,让您专注于应用开发而非运维。
1.零运维负担:无需管理GPU驱动、CUDA版本或集群配置;
2.开箱即用: 集成vLLM、SGLang 和 TensorRT-LLM等高性能推理引擎,支持自定义推理框架;
3.一键部署:支持从Hugging Face、ModelScope、或本地直接部署,支持自动扩缩容、版本升降级;
4.性能优化配置:提供预调优模式,用于低延迟或高吞吐量;
5.运维能力: 支持自动故障恢复、负载均衡、监控、认证和访问控制。
更多产品使用方法请参考附件。
说明
GPUstack默认账号为admin,密码为gpustack;
如需修改,可在进入应⽤中调整。