智算套件
 
                  更新时间 2025-06-11 11:37:00
                 
 
                    最近更新时间: 2025-06-11 11:37:00
                  
 本节介绍了智算套件的用户指南。
 前提条件
已创建云容器引擎智算版集群。
智算套件介绍
| 组件名称 | 组件介绍 | 
|---|---|
| 智能调度 | 为集群提供智能任务调度策略,可支持Gang、Capacity、Binpack/Spread和Queue等智能调度。 | 
| 日志 | 为集群的系统组件以及控制面组件收集日志。 | 
| 弹性训练 | 为集群提供AI任务接入,兼容主流AI框架和工具,包括TensorFlow、PyTorch、Horovod、Spark等。 | 
| 监控 | 为集群提供硬件监控能力,可采集GPU/NPU,显存等,支持可视化查看GPU的分配、使用和健康状态。 | 
| 存储 | 为集群容器提供挂载HPFS和ZOS的能力。 | 
| 网络 | 为集群容器提供使用RDMA网络的能力,包括IB和RoCE。 | 
智算套件安装/卸载
- 订购智算版集群,默认安装智算套件。 
- 您可根据需要选择控制台卸载组件,例如卸载网络组件。 
卸载完成后刷新页面,网络组件显示未部署状态。
点击部署按钮,可重新部署对应组件。
