昇腾 910B 物理机大EP推理方案部署指南 一、资源选型 在天翼云官网开通海量文件服务(OceanFS)或弹性文件服务(SFS)。 注意 创建 OceanFS 时,需开启 “终端节点” 创建开关。 在天翼云官网开通弹性高性能计算服务,具体配置如下: 1 台昇腾 910B NPU 物理机,作为master管理节点 7 台昇腾 910B NPU 物理机,作为compute计算节点 注意 在集群创建过程中,“队列与计算节点” 页面的队列名称需设置为 batch(默认值)。 二、环境准备 2.1 配置管理节点参与计算任务 设置管理节点提供计算资源,可按以下步骤手动配置: 在管理节点修改调度器配置文件,在文件末尾添加以下信息(其中[管理节点名]需替换为集群管理节点的 hostname): plaintext $ vim /opt/galaxy/scheduler/slurm/22.05.9.1/etc/slurm.conf ... NodeName[管理节点名] CPUs192 Boards2 SocketsPerBoard2 CoresPerSocket48 ThreadsPerCore1 RealMemory1546544 Gresgpu:910b2:8 在队列配置文件中,将集群管理节点的 hostname 添加到 Nodes 列表首位: plaintext $ vim /opt/galaxy/scheduler/slurm/22.05.9.1/etc/queueconfig PartitionNamebatch Defaultyes MaxTime1 StateUP PriorityTier40000 Nodes[管理节点名],compute001,compute002,compute003,compute004,compute005,compute006,compute007 将任意一台计算节点的/etc/default/gres.conf文件拷贝到管理节点的/etc/default/目录,示例命令如下(在管理节点执行): plaintext $ scp compute0001:/etc/default/gres.conf /etc/default/ 在管理节点重启 slurm 服务: plaintext $ systemctl start slurmd $ systemctl enable slurmd $ systemctl restart slurmctld 检查管理节点是否已加入计算队列(例如查看 master001 是否在 batch 队列中,已加入的示例如下): plaintext $ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST batch up infinite 8 idle compute[001007],master001