Slowdetect 自写训练一个step对应的代码 endtime profiler.gettime() profiler.updatestep(starttime, endtime, iteration) iteration + 1 ... ... · 安装ctcclprofilernet 下载合适版本的ctcclprofiler whl安装包,使用以下命令安装: pip install ctcclprofilernetxxx.whl 通过pip show可以查看安装包的位置,并配置环境变量: pip show ctcclprofilernet export PATH"/usr/local/python3/bin:$PATH" 启动命令: ctcclprofilernet loglevelinfo 下载地址 组件 下载地址 ctccm ctcclprofilercomm ctcclprofilernet 使用流程 1. ctccm启动 在和所有训练任务节点网络互通的节点上,部署1个ctccm服务,并配置好环境变量。使用以下启动命令拉起ctccm服务,根据训练任务节点数实际和需要配置nodes和port。 ctccm nodes “nnodes” port “ctccmslowdetectport” 2. 提前配置ctcclprofiler所需环境变量 配置以下环境变量: export CTCCLQPTIMEREPORT1, export CTCCLSLOWDETECTSERVERADDR“ export CTCCLPROFILERNETADDR“ 3. 启动训练任务和ctcclprofiler 在同一目录下启动ctcclprofilernet服务和执行训练任务。 ctcclprofilernet loglevelinfo bash runllama27bmorenode.sh
来自: