预置环境变量 本文档用于指导用户如何预置并行计算环境变量。 概述 在使用【并行计算】时,通常会为所有实例注入常见的环境变量,从而能快速部署训练任务。预置环境变量会与所选择的并行框架和资源规格有关。接下来将介绍几种不同类型的环境变量说明。 环境变量说明 通用环境变量 变量名称 变量值 变量说明 OMPNUMTHREADS 整数 实例线程数 NVIDIAVISIBLEDEVICES GPUUUID1,GPUUUID2... 实例GPU卡列表 MPI框架环境变量 变量名称 变量值 变量说明 OMPIALLOWRUNASROOT 1 允许OpenMPI在root下运行 OMPIALLOWRUNASROOT 1 确认允许OpenMPI在root下运行 OMPNUMTHREADS 1 每个进程的线程数,推荐1 OMPHOSTFILE /etc/mpi/hostfile hostfile路径 Pytorch DDP环境变量 变量名称 变量值 变量说明 MASTERADDR Launcher的hostname 控制节点地址 MASTERPORT 23456 控制节点端口,默认23456 WORLDSIZE 实例数 全局总进程数 RANK 整数 当前进程编号 Pytorch使用IB规格环境变量 变量名称 变量值 变量说明 NCCLIBDISABLE 0 NCCL是否启用IB网卡,0为启用 NCCLIBHCA mlnx50 集群提供的IB网卡名称 NCCLSOCKETIFNAME eth,eno,bond 指定用于通信的IP接口