产品定义
更新时间 2026-02-11 15:28:31
最近更新时间: 2026-02-11 15:28:31
本节介绍智算套件定义。
产品定义
智算套件是利用云原生架构和技术,在云容器引擎上快速定制化构建AI生产系统,帮助用户基于 Kubernetes 充分利用天翼云上弹性算力,支持弹性训练与推理等场景。
产品介绍
| 套件名称 | 套件说明 |
|---|---|
驱动管理 | 为GPU云主机或物理机的算力调度提供硬件驱动。 |
模型预热 | 将模型从对象存储预热到本地盘,大幅提升模型部署效率。 |
智算套件控制面引擎 | 提供高可用控制面,管理智算套件控制台正常运行。 |
故障诊断 | 为集群提供集群巡检、故障诊断等能力。 |
网络 | 为集群容器提供使用RDMA网络的能力,包括IB和RoCE。 |
弹性数据集 | 支持数据集版本管理,提供弹性加载能力。 |
| 弹性训练 | 为集群提供AI任务接入,兼容主流AI框架和工具,包括TensorFlow、PyTorch、Horovod、Spark等。 |
GPU安全容器 | 支持Kata安全容器运行时,满足业务高安全需求。 |
智能调度 | 为集群提供智能任务调度策略,可支持Gang、Capacity、Binpack/Spread和Queue等智能调度。 |
监控 | 为集群提供硬件监控能力,可采集GPU/NPU,显存等,支持可视化查看GPU的分配、使用和健康状态。 |