预置环境变量
更新时间 2025-06-19 15:02:50
最近更新时间: 2025-06-19 15:02:50
本文档用于指导用户如何预置并行计算环境变量。
概述
在使用【并行计算】时,通常会为所有实例注入常见的环境变量,从而能快速部署训练任务。预置环境变量会与所选择的并行框架和资源规格有关。接下来将介绍几种不同类型的环境变量说明。
环境变量说明
通用环境变量
变量名称 | 变量值 | 变量说明 |
---|---|---|
OMP_NUM_THREADS | 整数 | 实例线程数 |
NVIDIA_VISIBLE_DEVICES | GPU-UUID1,GPU-UUID2... | 实例GPU卡列表 |
MPI框架环境变量
变量名称 | 变量值 | 变量说明 |
---|---|---|
OMPI_ALLOW_RUN_AS_ROOT | 1 | 允许OpenMPI在root下运行 |
OMPI_ALLOW_RUN_AS_ROOT | 1 | 确认允许OpenMPI在root下运行 |
OMP_NUM_THREADS | 1 | 每个进程的线程数,推荐1 |
OMP_HOST_FILE | /etc/mpi/hostfile | hostfile路径 |
Pytorch DDP环境变量
变量名称 | 变量值 | 变量说明 |
---|---|---|
MASTER_ADDR | Launcher的hostname | 控制节点地址 |
MASTER_PORT | 23456 | 控制节点端口,默认23456 |
WORLD_SIZE | 实例数 | 全局总进程数 |
RANK | 整数 | 当前进程编号 |
Pytorch使用IB规格环境变量
变量名称 | 变量值 | 变量说明 |
---|---|---|
NCCL_IB_DISABLE | 0 | NCCL是否启用IB网卡,0为启用 |
NCCL_IB_HCA | mlnx5_0 | 集群提供的IB网卡名称 |
NCCL_SOCKET_IFNAME | eth,eno,bond | 指定用于通信的IP接口 |