NVIDIA GPU 物理机常见问题处理指南 5.2 下载并编译 gpuburn plaintext 克隆gpuburn源码 git clone cd gpuburn 编译(基于系统CUDA版本自动适配) make 验证编译结果(生成gpuburn可执行文件) ls l gpuburn 5.3 执行 GPU 压力测试 plaintext 测试指令一(测试600秒,详细打印输出) ./gpuburn v 600 测试指令二(仅测试第0块GPU,持续300秒) CUDAVISIBLEDEVICES0 ./gpuburn 300 测试指令三(测试第1、3、5块GPU,持续1小时(3600秒)) CUDAVISIBLEDEVICES1,3,5 ./gpuburn 3600 测试期间可新开终端监控 GPU 状态:实时监控GPU使用率、温度、功耗(每2秒刷新一次) watch n 2 nvidiasmi 或监控关键指标(温度/使用率/功耗) nvidiasmi querygpuindex,temperature.gpu,utilization.gpu,power.draw formatcsv l 2 5.4 测试结果验证(以八卡H800为例) plaintext 83.0% proc'd: 9240 (42060 Gflop/s) 11480 (51638 Gflop/s) 11200 (51623 Gflop/s) 11200 (51528 Gflop/s) 11200 (51271 Gflop/s) 11200 (51632 Gflop/s) 11200 (51584 Gflop/s) 9240 (42053 Gflop/s) errors: 0 0 0 0 0 0 0 0 temps: 49 C 60 C 64 C 72 C 74 C 56 C 57 C 40 C Summary at: Mon Dec 22 16:37:51 CST 2025 。。。 100.0% proc'd: 11200 (42057 Gflop/s) 13720 (51631 Gflop/s) 13720 (51630 Gflop/s) 13720 (51538 Gflop/s) 13720 (51249 Gflop/s) 13720 (51639 Gflop/s) 13720 (51583 Gflop/s) 11200 (42057 Gflop/s) errors: 0 0 0 0 0 0 0 0 temps: 50 C 60 C 64 C 72 C 75 C 57 C 57 C 40 C 。。。 Tested 8 GPUs: GPU 0: OK GPU 1: OK GPU 2: OK GPU 3: OK GPU 4: OK GPU 5: OK GPU 6: OK GPU 7: OK