大模型推理性能测试实践 从参数获取重复次数,默认值为 2 self.repeat getattr(queryparameters, 'datasetrepeat', 2) def buildmessages(self) > Iterator[List[Dict]]: for inputlen in self.inputlength: for in range(self.repeat): yield self.createquery(inputlen) 2)修改参数加载文件evalscope/perf/arguments.py,修改如下 plaintext 在Arguments中添加对应字段 datasetinputlengthargs.datasetinputlength, datasetrepeatargs.datasetrepeat 在addargument函数里添加: parser.addargument( 'datasetinputlength', nargs'+', typeint, default[1, 6144, 14336, 30720], help'The length of the input, default [1, 6144, 14336, 30720]') parser.addargument('datasetrepeat', typeint, default2, help'The repeat times of the dataset') 安装修改后的evalscope工具后,执行测试的示例如下所示: plaintext evalscope perf parallel 1 url model DeepSeekR1DistillQwen32B logeverynquery 1 connecttimeout 60000 readtimeout 60000 maxtokens 2048 mintokens 2048 api openai dataset speedbenchmark apikey Vb7h4cVRFPgfAr8a datasetinputlength 256 1024 2048 datasetrepeat 5 当我们传入多个datasetinputlength值时会同时测试多个不同的输入长度的样本,总的请求数为datasetinputlength输入的样本个数乘以datasetrepeat传入的值。 三、LLMPerf 1. 前言 LLMPerf(大型语言模型性能测试)是评估大语言模型(LLM)在生产环境中表现的核心评测体系。本文基于真实业务场景提炼最佳实践方法论,为开发、运维与测试团队提供可靠的测试方案,系统性保障服务的高吞吐、低延迟和稳定性。 2.