安装、升级与使用CTCCL库 本文向您介绍如何安装、升级与使用CTCCL库。 镜像安装 训推服务部分官方镜像默认安装CTCCL,使用以下官方镜像时,无需自己安装CTCCL。 pytorch2.2.0ctccl0.3.0cuda12.3ubuntu20.04amd64 llama2trainingctccl0.3.0cuda12.1pytorch2.2.1megatron0.2.0deepspeed0.14.1ubuntu20.04amd64 手动安装 1.确认原本nccl/ctccl安装位置 如果使用的深度学习框架自带NCCL,配置的NCCL目录可能不是默认路径,可以用以下命令查找。 find / name "libnccl.so.2" 获得$NCCLPATH 2.确认使用的CUDA版本 使用以下命令,查看当前环境依赖的CUDA版本,输出结果如下图所示。 nvdiasmi 3.下载CUDA版本对应的CTCCL 用户根据操作系统和安装的CUDA版本下载对应的CTCCL独立安装包,安装并使用。 4.使用下载的CTCCL替换环境中原有的libnccl。 CTCCL 依赖环境 下载地址 v0.4.0 Ubuntu 20.04 + CUDA12.2 cp libnccl.so.2 $NCCLPATH 如果没有查找到libnccl.so.2文件,可以直接使用cp命令复制到/usr/lib64。
来自: