Pro(1) 创建挂载目录 mkdir p "$mountpoint" 获取设备的文件系统类型 currentfs$(blkid s TYPE o value "$device") if [[ z "$currentfs" ]]; then echo "设备 $device 没有文件系统,正在格式化为 $fstype..." mkfs.xfs f "$device" else echo "$device 已格式化为 $currentfs,跳过格式化" fi 确保设备未被挂载后再尝试挂载 umount "$device" 2>/dev/null mount t "$fstype" "$device" "$mountpoint" if [[ $? ne 0 ]]; then echo "错误:无法挂载 $device 到 $mountpoint,请检查设备或文件系统!" exit 1 fi echo "$device 已成功挂载到 $mountpoint" 获取 UUID 并更新 /etc/fstab,避免重复添加 uuid$(blkid s UUID o value "$device") if ! grep q "$uuid" /etc/fstab; then echo "UUID$uuid $mountpoint $fstype defaults 0 0" >> /etc/fstab echo "$device (UUID$uuid) 已添加到 /etc/fstab" else echo "$device 已存在于 /etc/fstab,无需添加" fi done echo "所有磁盘已成功挂载并配置为开机自动挂载!" 将以上脚本保存为mount.sh,并执行 shell sh mount.sh 本指南中部署将统一使用一下路径: 1. 高速容器存储路径:/mnt/nvme0n1/apptainer/ 2. 服务部署工作路径:/home/deepseek/ 3. 模型权重参数路径:/mnt/nvme1n1/model/ 建议将权重参数放在单独的nvme盘中,启动加载时更快 2.3 管控节点加入计算队列 Slurm 集群默认架构设计中,管控(管理)节点常规场景下不纳入计算调度队列。在大模型训推、高性能算力作业场景下,单靠原有计算节点资源难以满足大模型权重加载、容器运行、推理生成的高算力与大内存诉求。 为最大化挖掘整机集群资源利用率、扩充可用算力规模,需将管控节点从纯管理模式,纳入 Slurm 计算调度队列,使其同时承担集群管理 + 大模型算力计算双重角色,统一参与大模型相关作业调度与算力承载。 shell sed i 's/^snoderoles./NodeRoleserver,execute/i' /usr/local/galaxy/cluster/default/galaxylauncher/etc/launcher.conf launcher resource setupscheduler {"success": true, "result": null} master0001为管控节点hostname,按实际修改;batch是队列名,在计算节点下单页可自定义命名,建议用batch launcher resource addnode nodename master0001 queuename batch {"success": true, "result": null} 命令执行成功后,可通过sinfo命令查看计算队列节点 ruby 查看计算队列节点 sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST batch up infinite 4 idle compute[00010003],master0001 三、物料准备
来自: