训练性能加速
更新时间 2025-09-10 13:50:23
最近更新时间: 2025-09-10 13:50:23
平台通过多种加速策略实现MFU提升和线性加速比提升。
MFU提升
在平台上使用1152卡对Llama3.1-405B进行预训练和微调,通过数据加速、镜像加速、3D并行等加速策略,实现MFU的提升:
MFU - 芯片算力(%):达到44.185
MFU - CUBE算力(%):达到47.064
环境配置
| 服务器型号 | Atlas 800T A2 |
|---|---|
| NPU型号 | 910B2(64GB) |
| 驱动版本 | 23.0.3 |
| CANN | 8.0.RC2 |
| Python | 3.10.14 |
| MindSpore | 2.3.1 |
| Mindformers | dev分支(5bfebf+diff.patch) |
训练配置
| Epochs | 100 |
|---|---|
| Learning Rate | 6.e-5 |
| Global Batch Size | 2048 |
| Batch Size | 1 |
| Micro Batch Size | 256 |
| Sequence Length | 4096 |
| Data Parallel (DP) | 8 |
| Model Parallel (MP) | 8 |
| Pipeline Parallel (PP) | 18 |
| max_device_memory | 54GB |
| jit_level | O2 |
训练结果
| 吞吐量(tokens/s/p) | 61.962 |
|---|---|
| MFU - 芯片算力(%) | 44.185 |
| MFU - CUBE算力(%) | 47.064 |
线性加速比提升
在平台测试模型训练规模的性能线性比,分别测试1k,2k,4k,6k,9k规模并作对比如下(以千卡规模为基准):
| 训练规模(卡数) | 吞吐量(tokens/s/p) | MFU(芯片/CUBE)(%) | 线性比(%) |
|---|---|---|---|
| 1024 | 407.701 | 47.847 / 50.965 | 100 |
| 2048 | 403.415 | 47.344 / 50.429 | 98.95 |
| 4096 | 400.734 | 47.030 / 50.094 | 98.29 |
| 6144 | 393.577 | 46.190 / 49.200 | 96.54 |
| 9216 | 366.915 | 43.061/ 45.867 | 90.00 |