CTCCL环境变量设置 CTCCL兼容NCCL环境变量,常使用的CTCCL环境变量如下,推荐值仅供参考,具体使用以实际情况为准。 环境变量 描述 推荐值 NCCLIBGIDINDEX RDMA协议使用的GID 3 NCCLIBHCA RDMA通信使用的网卡 mlx5 NCCLIBTIMEOUT RDMA连接超时时间,合理配置可以提高训练任务的容错能力 22 NCCLSOCKETIFNAME 使用该端口建立连接 bond0 NCCLDEBUG 日志级别 INFO/WARN NCCLDEBUGSUBSYS 打印的info信息子类别,设置为REPORT可以输出网卡对带宽信息(若带宽统计功能开启)、事件上报日志(若上报功能开启) REPORT NCCLIBQPSPERCONNECTION 单连接使用的并行传输QP数量。若要使用QP切换与重传功能,请不要配置为1 8 NCCLNETPLUGIN 配置网络插件 none CTCCLERRREPORT 默认为0,配置为1后,CTCCL内部发现异常上报云骁平台。使用云骁智能平台拉起训练任务时,该功能默认打开。 0 CTCCLBWREPORT 默认为0,配置为1后,统计网卡对集合通信带宽信息并记录在日志中,日常正常训练不建议开启。使用云骁智能平台拉起训练任务时,该功能默认打开。 0 CTCCLIBLBUPLINK 默认为0,RoCE组网下,推荐配置为leaf交换机上行链路数。IB环境下请配置为0,或不做配置。 IB:0 RoCE:上行链路数 CTCCLQPTIMEREPORT 默认为0,要使用慢节点检测工具时请配置为1,必须搭配慢节点检测工具套件使用。 0