产品定义
云容器引擎(智算版)是利用云原生架构和技术,在云容器引擎上快速定制化构建AI生产系统,提供智算场景下的调度策略(共享GPU调度、批作业调度、拓扑感知调度)、GPU/RDMA异构资源管理和GPU资源监控基础能力,为用户提供AI数据集管理,AI模型开发、训练、评测,以及模型推理等服务。
产品架构
智算版作为云容器引擎的新规格和增值服务,基于云容器引擎提供管理和运行AI任务的能力,功能结构如下:
智算容器对底层IaaS各类异构资源做统一管理,通过拓扑感知,智能调度算法,实现AI任务调度、AI任务流编排,支持AI模型开发、训练、推理等,可快速构建AI生产环境,降低AI使用门槛。
核心功能
功能模块 | 功能项 | 功能点 | 智算版 |
---|---|---|---|
异构资源管理 | 异构资源 | GPU | 支持 |
NPU | 支持 | ||
RDMA | 支持 | ||
监控 | GPU 利用率 | 支持 | |
Job 监控 | 支持 | ||
共享GPU | eGPU | 支持 | |
AI 任务调度 | 调度策略 | GANG | 支持 |
FIFO | 支持 | ||
Capacity | 支持 | ||
Binpack | 支持 | ||
Spread | 支持 | ||
AI 框架 | 模型训练 | PyTorch | 支持 |
TensorFlow | 支持 | ||
DeepSpeed | 支持 |
使用场景
AI训练场景
AI训练需要大量的GPU算力,通过为集群添加物理GPU节点,开通对应规格的智算版容器,可快速部署训练集并完成训练任务,例如:大模型算法、AI框架算法等。
AI推理场景
在已完成训练的情况下,可以通过为集群添加GPU云主机,开通对应规格的智算版容器,可快速部署AI推理服务,提供AI服务,例如:AI客服,AI对话,AI文生图,AI图像处理等。