通讯库性能检测
更新时间 2025-09-07 21:25:09
最近更新时间: 2025-09-07 21:25:09
通讯库性能检测对两种典型的集合通讯库,即英伟达系列的NCCL和昇腾系列的HCCL进行多种通信模型的性能检测,可输出算法带宽,辅助用户判断环境健康。
此功能目前只在部分资源池提供,具体资源池信息请询问客户经理
使用前提
当前用户是主账号。
操作步骤
登录通用计算控制台,单击左侧导航栏中的【通讯库性能检测】,进入通讯库性能检测新建页。
选择检测内容。
字段 | 说明 |
通讯库类别 | nccl(英伟达)、hccl(昇腾)。 |
通讯模型 | 选择相关通讯模型(单选)。 |
单节点待测GPU数量 | 1-8,默认为8,目前支持的节点规格单节点不会超过8卡。 |
3. 选择检测目标。
字段 | 说明 |
集群名称 | 根据选择的通讯库(nccl或hccl)列出相关集群供用户选择。如选择nccl,则列出英伟达资源组;选择了hccl,列出昇腾资源组。 |
选择节点 | 根据选择的集群列出集群下方的节点,对节点进行勾选,可多选。 |
节点密码 | 输入集群下节点的密码,(该密码为root用户密码)。 注意:集群下各节点密码需要保持一致,该输入框只能输入一个节点密码,不一致会检测失败。 |
4. 开始检测。
1)点击【开始检测】,启动检测,也可以点击【检测历史】查看节点的历史检测报告。
2)启动之后,进行检测确认。确认之后,跳入检测历史页面进行检测结果查看。