大模型安全测评
更新时间 2026-04-29 10:33:11
最近更新时间: 2026-04-29 10:33:11
Q1. 什么是标准大模型接口?
标准大模型接口,是全国统一、全厂商对齐、格式固定的大模型调用通用API规范。其以OpenAI的/v1体系为事实底座,叠加国内行业团体标准约束,可实现一套代码无缝切换所有大模型,且入参、出参、鉴权、错误提示均统一,与OpenAI的/v1体系完全一致。
Q2. 测评目标添加失败的原因有哪些?
测评目标添加失败,主要有以下几类原因:
测评目标接口地址填写错误,或网络连接异常。
标准测评目标的鉴权信息不正确。
非标测评目标的接口请求参数不符合要求。
非标测评目标的接口响应异常,无法正常交互。
Q3. 完整的一次测评的时间长短主要取决于什么?
一次完整的测评分为采集和测评两个阶段:
采集阶段:向目标大模型输入相关信息并获取反馈,此步骤耗时由目标大模型接口性能决定,是影响整个测评时长的关键因素。
测评阶段:将大模型反馈信息输入测评引擎,最终生成测评结论,此步骤响应速度为秒级,耗时可忽略。
Q4. 测评记录中的“全部成功”和“部分成功”有什么区别?
全部成功:所有测评样本均成功从目标大模型获取反馈,并生成对应的测评结论;
部分成功:仅部分测评样本成功获取目标大模型反馈及测评结论,另有部分样本未成功获取反馈。针对该情况,可选择两种处理方式:对异常样本再次发起测评,或手动标记为成功。
Q5. 测评系统是否支持文本、图片、视频和多模态测评?
目前测评系统仅支持文本类型测评,暂不支持图片、视频及多模态测评。
Q6. 测评进度怎么查看?
进入“测评记录→样本列表”页面,可查看本次测评的样本总数、已完成样本数、待测评样本数,通过该页面可实时掌握测评进度。
Q7. 如何区分是目标大模型的问题还是测评业务代码的问题?
在测评记录页面的“样本列表”子页面,可查看每条样本的测评状态及所处阶段:若异常发生在采集阶段,即为目标大模型的问题;其余阶段的异常,则属于测评业务代码的问题。