天翼云GPU云主机模型推理性能总览 本节先简要介绍了天翼云GPU云主机模型推理性能总览 GPU云主机能够提供优秀的浮点计算能力,可以实现端到端推理加速,减少推理延迟,从而提高模型的实时性和响应速度。本文基于DeepSeek模型实测数据,对比分析天翼云多款主流GPU云主机的推理性能表现。 下面的表格展示了以C8E类型的32c128g规格的云主机作为基线,模型使用DeepSeekR1DistillQwen7B,以及C8E类型的128c512g规格的云主机作为基线,模型使用DeepSeekR1DistillQwen32B,天翼云多款主流GPU云主机的推理时延降低率和吞吐量提升率(值越大表示性能越好)。 模型 云主机类型 显卡类型 时延降低率 吞吐量提升率 DeepSeekR1DistillQwen7B pn8i.4xlarge.8 1L20 88% 800% DeepSeekR1DistillQwen7B p8a.6xlarge.4 1A100 85% 857% DeepSeekR1DistillQwen7B pi7.4xlarge.4 1A10 72% 467% DeepSeekR1DistillQwen7B p2vs.2xlarge.4 1V100s 82% 597% DeepSeekR1DistillQwen7B p2v.2xlarge.4 1V100 81% 617% DeepSeekR1DistillQwen7B pi2.4xlarge.4 2T4 73% 399% DeepSeekR1DistillQwen32B pn8i.8xlarge.8 4L20 92% 1550% DeepSeekR1DistillQwen32B p8a.24xlarge.4 4A100 87% 1497% DeepSeekR1DistillQwen32B pi7.16xlarge.4 4A10 81% 821% DeepSeekR1DistillQwen32B p2vs.8xlarge.4 4V100s 83% 834% DeepSeekR1DistillQwen32B p2v.8xlarge.4 4V100 82% 859% 注意 pn8i相关规格的产品将于2025年4月30日上线。
来自: