服务器检测
更新时间 2025-09-07 21:25:00
最近更新时间: 2025-09-07 21:25:00
服务器检测提供针对集群的GPU、NPU节点的检测能力,主要检测节点的关键软硬件是否安装,关键配置是否开启,参与训练的多节点配置是否一致,配置是否符合用户设定等方面。
此功能目前只在部分资源池提供,具体资源池信息请询问客户经理
使用前提
当前用户是主账号。
操作步骤
登录通用计算控制台,单击左侧导航栏中的【服务器检测】,进入服务器检测任务新建页。
选择检测类型,【Nvidia系列】或者【昇腾系列】。
选择检测内容。
字段 | 说明 |
节点通用检测项 | 该项为系统内置检测项,用来判断单个节点的关键软件和配置是否符合预期,用户可以根据自己的业务需求进行检测项的选择,检测结果为“通过”或“不通过”。 |
多节点一致性检测项 | 系统内置检测项,用来判断参与训练的多节点关键配置是否一致。主要分为两种场景:
|
节点可配置检测项 | 系统内置检测项和用户自定义检测参数。针对具体检测项,用户可自行定义检测标准,检测结果为“通过”或“不通过”。 |
4. 选择检测目标。
字段 | 说明 |
集群 | 根据选择的系列(Nvidia或昇腾)列出相关集群供用户选择(单选)。 |
节点 | 左侧选择集群内单个或多个节点作为目标,将其移动到右侧成为已选节点。 |
开启基线节点设置 | 选择一个节点作为多节点一致性检测的基线节点,此项为非必选。如果选择“开启节点基线设置”,则需要在右侧已选节点列表中选择一个节点作为基线节点。 |
输入节点密码 | 输入创建该节点时设置的密码。注意:选择多个节点需要保证所有节点的密码一致,节点密码只有一个输入框,如不一致会检测失败。 |
5. 开始检测:
1) 点击【开始检测】,启动检测,也可以点击【检测历史】查看节点的历史检测报告。
2) 启动之后,进行检测确认。确认之后,跳入检测历史页面进行检测结果查看。