服务器检测 服务器检测提供针对集群的GPU、NPU节点的检测能力,主要检测节点的关键软硬件是否安装,关键配置是否开启,参与训练的多节点配置是否一致,配置是否符合用户设定等方面。 此功能目前只在部分资源池提供,具体资源池信息请询问客户经理 使用前提 当前用户是主账号。 操作步骤 1. 登录公共算力服务控制台,单击左侧导航栏中的【服务器检测】,进入服务器检测任务新建页。 2. 选择检测类型,【Nvidia系列】或者【昇腾系列】。 3. 选择检测内容。 字段 说明 节点通用检测项 该项为系统内置检测项,用来判断单个节点的关键软件和配置是否符合预期,用户可以根据自己的业务需求进行检测项的选择,检测结果为“通过”或“不通过”。 多节点一致性检测项 系统内置检测项,用来判断参与训练的多节点关键配置是否一致。主要分为两种场景: 1. 第一种场景:用户选择其中一个节点的配置作为基线,其他节点均和基线节点进行对比,如果结果一致,则检测结果为“通过”,不一致,则检测结果为“不通过”。 2. 第二种场景:用户没有设置基线节点,则将对所有节点的安装配置结果进行统计,将每项检测的所有检测结果详细列出,结果“不涉及”是否通过。 节点可配置检测项 系统内置检测项和用户自定义检测参数。针对具体检测项,用户可自行定义检测标准,检测结果为“通过”或“不通过”。 4. 选择检测目标。 字段 说明 集群 根据选择的系列(Nvidia或昇腾)列出相关集群供用户选择(单选)。 节点 左侧选择集群内单个或多个节点作为目标,将其移动到右侧成为已选节点。 开启基线节点设置 选择一个节点作为多节点一致性检测的基线节点,此项为非必选。如果选择“开启节点基线设置”,则需要在右侧已选节点列表中选择一个节点作为基线节点。 输入节点密码 输入创建该节点时设置的密码。注意:选择多个节点需要保证所有节点的密码一致,节点密码只有一个输入框,如不一致会检测失败。 5. 开始检测: 1) 点击【开始检测】,启动检测,也可以点击【检测历史】查看节点的历史检测报告。 2) 启动之后,进行检测确认。确认之后,跳入检测历史页面进行检测结果查看。