CTCCL-Slowdetect最佳实践
更新时间 2025-10-22 15:47:10
最近更新时间: 2025-10-22 15:47:10
本文为您介绍CTCCL-Slowdetect最佳实践。
在4台A800*8,每台节点有8张mlx网卡,RoCE组网,部署慢节点工具套件。其中,在4节点上容器化部署模型训练基础环境以及llama2-7b训练模型,在node1上容器化部署ctccm服务,并在每一台节点上容器化部署ctccl-profiler服务。
在训练任务代码中调用ctccl-profiler-comm API:
在训练脚本中配置相关环境变量
启动ctccm-slowdetect服务
export PATH="/usr/local/python3/bin:$PATH"(替换为自己的安装路径) &&ctccm --nnodes 4 --port 8002 --debug
启动所有节点上的ctccl-profiler-net服务
启动分布式训练任务,ctccm会收到任务的逻辑拓扑
ctccm在训练中检测集群中是否存在慢节点,一旦发现慢节点则下发开始收集细粒度的监控信息的控制信号,并做慢节点定位定界。
当计算慢时,ctccm会给出计算慢的TP通信域所包含的rank。
当通信慢时,ctccm会给出慢的QP以及它所对应的网卡对和所在节点。