CTCCL-Slowdetect最佳实践
更新时间 2025-10-21 14:14:09
最近更新时间: 2025-10-21 14:14:09
本文为您介绍CTCCL-Slowdetect最佳实践。
在4台A800*8,每台节点有8张mlx网卡,RoCE组网,部署慢节点工具套件。其中,在4节点上容器化部署模型训练基础环境以及llama2-7b训练模型,在node1上容器化部署ctccm服务,并在每一台节点上容器化部署ctccl-profiler服务。
在训练任务代码中调用ctccl-profiler-comm API:
在训练脚本中配置相关环境变量
启动ctccm-slowdetect服务
export PATH="/usr/local/python3/bin:$PATH"(替换为自己的安装路径) &&
ctccm --nnodes 4 --port 8002 --debug
启动所有节点上的ctccl-profiler-net服务
启动分布式训练任务,ctccm会收到任务的逻辑拓扑
ctccm在训练中检测集群中是否存在慢节点,一旦发现慢节点则下发开始收集细粒度的监控信息的控制信号,并做慢节点定位定界。
当计算慢时,ctccm会给出计算慢的TP通信域所包含的rank。
当通信慢时,ctccm会给出慢的QP以及它所对应的网卡对和所在节点。
慢节点检测套件下载地址
组件 | 下载地址 |
---|---|
ctccm | https://jiangsu-10.zos.ctyun.cn/ctccl-n/ctccl-slowdetect/cuda12.2/ubuntu20.04/ctccl-slowdetect1.0.0/ctccm-1.0.0-cp39-cp39-linux_x86_64.whl |
ctccl-profiler-comm | https://jiangsu-10.zos.ctyun.cn/ctccl-n/ctccl-slowdetect/cuda12.2/ubuntu20.04/ctccl-slowdetect1.0.0/ctccl_profiler_comm-1.0.0-cp39-cp39-linux_x86_64.whl |
ctccl-profiler-net | https://jiangsu-10.zos.ctyun.cn/ctccl-n/ctccl-slowdetect/cuda12.2/ubuntu20.04/ctccl-slowdetect1.0.0/ctccl_profiler_net-1.0.0-cp39-cp39-linux_x86_64.whl |