CTCCL环境变量设置
更新时间 2025-10-21 14:13:52
最近更新时间: 2025-10-21 14:13:52
CTCCL兼容NCCL环境变量,常使用的CTCCL环境变量如下,推荐值仅供参考,具体使用以实际情况为准。
环境变量 | 描述 | 推荐值 |
---|---|---|
NCCL_IB_GID_INDEX | RDMA协议使用的GID | 3 |
NCCL_IB_HCA | RDMA通信使用的网卡 | mlx5 |
NCCL_IB_TIMEOUT | RDMA连接超时时间,合理配置可以提高训练任务的容错能力 | 22 |
NCCL_SOCKET_IFNAME | 使用该端口建立连接 | bond0 |
NCCL_DEBUG | 日志级别 | INFO/WARN |
NCCL_DEBUG_SUBSYS | 打印的info信息子类别,设置为REPORT可以输出网卡对带宽信息(若带宽统计功能开启)、事件上报日志(若上报功能开启) | REPORT |
NCCL_IB_QPS_PER_CONNECTION | 单连接使用的并行传输QP数量。若要使用QP切换与重传功能,请不要配置为1 | 8 |
NCCL_NET_PLUGIN | 配置网络插件 | none |
CTCCL_ERR_REPORT | 默认为0,配置为1后,CTCCL内部发现异常上报云骁平台。使用云骁智能平台拉起训练任务时,该功能默认打开。 | 0 |
CTCCL_BW_REPORT | 默认为0,配置为1后,统计网卡对集合通信带宽信息并记录在日志中,日常正常训练不建议开启。使用云骁智能平台拉起训练任务时,该功能默认打开。 | 0 |
CTCCL_IB_LB_UPLINK | 默认为0,RoCE组网下,推荐配置为leaf交换机上行链路数。IB环境下请配置为0,或不做配置。 | IB:0 RoCE:上行链路数 |
CTCCL_QPTIME_REPORT | 默认为0,要使用慢节点检测工具时请配置为1,必须搭配慢节点检测工具套件使用。 | 0 |