CTCCL-Slowdetect简介 CTCCLSlowdetect是天翼云自研的用于大模型训练中慢节点检测的工具套件,需配合CTCCL0.4.0及以上使用。 功能介绍 CTCCLSlowdetect1.0.0工具套件架构如图所示,包括三个模块。 · ctccm:跨节点的集中式慢节点诊断工具。部署在和所有训练任务节点网络互通的节点上,每个大模型训练任务只需部署一个ctccm服务。负责收集汇总和集中发现与定位慢节点问题。 · ctcclprofilercomm:通信域级别集合通信信息统计工具。在每个训练任务所在的节点/容器内安装ctcclprofilercomm插件,在训练任务的脚本中import相关库并调用API接口使用,负责获得训练任务的通信域任务拓扑,以及收集通信域级别的超时集合通信操作事件,提供给ctccm进行慢节点分析诊断。 · ctcclprofilernet:机间通信边缘诊断工具。在每个训练任务所在的节点/容器内部署ctcclprofilernet服务,每个训练任务节点都需要部署1个独享的ctcclprofilernet服务。负责在边缘处理与初步诊断机间通信数据。 在大模型训练任务中使用CTCCLSlowdetect1.0.0工具套件,能够实现大模型训练过程中通信原因与非通信原因的慢节点检测。在发现集群中慢节点存在时,自动化开启全量集合通信操作事件监控,进一步分析定位慢节点。