MFU提升

在平台上使用1152卡对Llama3.1-405B进行预训练和微调，通过数据加速、镜像加速、3D并行等加速策略，实现MFU的提升：

MFU - 芯片算力（%）：达到44.185
MFU - CUBE算力（%）：达到47.064

环境配置

吞吐量（tokens/s/p）	61.962
MFU - 芯片算力（%）	44.185
MFU - CUBE算力（%）	47.064

在平台测试模型训练规模的性能线性比，分别测试1k，2k，4k，6k，9k规模并作对比如下（以千卡规模为基准）：

训练规模（卡数）	吞吐量（tokens/s/p）	MFU（芯片/CUBE）（%）	线性比（%）
1024	407.701	47.847 / 50.965	100
2048	403.415	47.344 / 50.429	98.95
4096	400.734	47.030 / 50.094	98.29
6144	393.577	46.190 / 49.200	96.54
9216	366.915	43.061/ 45.867	90.00