CTCCL关键特性
· 主动避障,RDMA网络多路径传输,当感知到部分路径异常,则在条件允许情况下自动将流量切换到正常路径。
· 并行传输,动态感知不同RDMA网络路径的传输能力,合理分配传输任务,从端侧保证带宽利用率最大化。
· 监控能力,日志机制联合事件机制,提供网卡对集合通信带宽监控和QP通信异常事件上报智能平台能力。
· 端网协同,在RoCE组网下实现端网协同负载均衡,降低哈希冲突带来的影响,提高链路利用率。
· 故障定位,结合慢节点工具套件,提供自动化训练中慢节点发现与定位能力。
CTCCL发布记录
版本号 | 发布日期 | 更新内容 |
---|---|---|
v0.4.0 | 2025-9-30 | · 新增功能 - 适配CTCCL慢节点检测工具套件。 · 优化改进 - 为流体重力功能增加开关,使用环境变量配置,以便灵活使用该功能。 |
v0.3.0 | 2024-12-30 | ·新增功能 - 新增QP通信事件上报功能,在机间RDMA通信异常时上报异常事件至平台。仅在一体化计算加速平台·异构计算平台部署的地域可用。 - 新增集合通信网卡对带宽功能,用户可通过配置环境变量开启,并通过日志查看带宽信息。 - 新支持RoCE组网端网协同,有效改善交换机端口流量不均问题,提高带宽利用率。 · 缺陷修复 - 修复了QP数设置大于32直接异常退出的问题。 - 修复了alltoall集合通信操作时,由于资源开销大而导致的性能低问题。 · 优化改进 - 优化流体重力算法,以更灵活的动态任务分配方式,在拥塞场景提高通信性能10%。 |
v0.2.0 | 2024-06-30 | · 新增功能 - 新增流体重力算法,并行传输,动态感知不同RDMA网络路径的传输能力,合理分配传输任务,从端侧保证带宽利用率最大化。 · 优化改进 |
v0.1.0 | 2024-04-30 | · 新增功能 - 天翼云自研集合通信库CTCCL首次发布。 - CTCCL具有主动避障功能,提升RDMA通信容错能力。支持单QP传输,当感知到部分路径异常,则在条件允许情况下自动将流量切换到正常路径 |
升级提示:
· 在升级CTCCL新版本之前,请确保已停止该环境所有的训练任务,升级方式和安装方法相同。
· 需要升级集群中所有节点的CTCCL版本,新版本和旧版本不兼容在同个训练任务中使用。