天翼云GPU云主机模型推理性能总览
更新时间 2025-11-17 13:27:46
最近更新时间: 2025-11-17 13:27:46
本节先简要介绍了天翼云GPU云主机模型推理性能总览
GPU云主机能够提供优秀的浮点计算能力,可以实现端到端推理加速,减少推理延迟,从而提高模型的实时性和响应速度。本文基于DeepSeek模型实测数据,对比分析天翼云多款主流GPU云主机的推理性能表现。
下面的表格展示了以C8E类型的32c128g规格的云主机作为基线,模型使用DeepSeek-R1-Distill-Qwen-7B,以及C8E类型的128c512g规格的云主机作为基线,模型使用DeepSeek-R1-Distill-Qwen-32B,天翼云多款主流GPU云主机的推理时延降低率和吞吐量提升率(值越大表示性能越好)。
模型 | 云主机类型 | 显卡类型 | 时延降低率 | 吞吐量提升率 |
|---|---|---|---|---|
DeepSeek-R1-Distill-Qwen-7B
| pn8i.4xlarge.8 | 1*L20 | 88% | 800% |
p8a.6xlarge.4 | 1*A100 | 85% | 857% | |
pi7.4xlarge.4 | 1*A10 | 72% | 467% | |
p2vs.2xlarge.4 | 1*V100s | 82% | 597% | |
p2v.2xlarge.4 | 1*V100 | 81% | 617% | |
pi2.4xlarge.4 | 2*T4 | 73% | 399% | |
DeepSeek-R1-Distill-Qwen-32B
| pn8i.8xlarge.8 | 4*L20 | 92% | 1550% |
p8a.24xlarge.4 | 4*A100 | 87% | 1497% | |
pi7.16xlarge.4 | 4*A10 | 81% | 821% | |
p2vs.8xlarge.4 | 4*V100s | 83% | 834% | |
p2v.8xlarge.4 | 4*V100 | 82% | 859% |
注意
- pn8i相关规格的产品将于2025年4月30日上线。