套件概述(1) 本节介绍智算套件概述。 前提条件 已创建云容器引擎智算版集群。 智算套件介绍 套件名称 套件功能 驱动管理 为GPU云主机或物理机的算力调度提供硬件驱动。 弹性数据集 支持数据集版本管理,提供弹性加载能力。 GPU安全容器 支持Kata安全容器运行时,满足业务高安全需求。 智算套件控制面引擎 提供高可用控制面,管理智算套件控制台正常运行。 监控 为集群提供硬件监控能力,可采集GPU/NPU,显存等,支持可视化查看GPU的分配、使用和健康状态。 网络 为集群容器提供使用RDMA网络的能力,包括IB和RoCE。 模型预热 将模型从对象存储预热到本地盘,大幅提升模型部署效率。 智能调度 为集群提供智能任务调度策略,可支持Gang、Capacity、Binpack/Spread和Queue等智能调度。 弹性训练 为集群提供AI任务接入,兼容主流AI框架和工具,包括TensorFlow、PyTorch、Horovod、Spark等。 故障诊断 为集群提供集群巡检、故障诊断等能力。 存储 为集群容器提供挂载HPFS和ZOS的能力。 日志 为集群的系统组件以及控制面组件收集日志。
来自: