论文名:Evaluation of Retrieval-Augmented Generation: A Survey
作者: Hao Yu, Aoran Gan, Kai Zhang, Shiwei Tong, Qi Liu, and Zhaofeng Liu
引言
RAG( Retrieval-Augmented Generation,检索增强生成)系统主要包括检索和生成两个部分。检索:旨在从多个外部知识源中提取相关信息,包括索引和搜索。1)索引:索引阶段旨在组织文档以便于有效检索,其中使用倒排索引用于稀疏检索、密集向量编码用于密集检索。2)搜索:搜索阶段利用上述索引根据用户的query获取相关文档,通常也会结合可选的reranker来优化检索到的文档的排名。生成:利用检索到的内容和问题query在提示和推理阶段制定连贯且与上下文相关的回应。在推理阶段,LLMs根据prompt输入生成准确且深入的回应,这些回应与查询的意图一致,并整合了提取的信息,而无需进一步的微调。下图展示了所提到的RAG系统结构。
随着RAG特定方法的发展,评估RAG越来越重要。一方面,RAG是一个复杂的系统,与特定需求和语言模型紧密相连,促进了各种评估方法、指标和工具的出现。评估RAG系统包括特定组件和整个系统评估的复杂性。另一方面,RAG系统的复杂性由于外部动态数据库和各种下游任务而进一步增加,如内容创建或开放领域问答。这些挑战需要开发能够有效捕捉检索准确性和生成质量之间相互作用的全面评估指标。我们整理了12个不同的评估框架,涵盖了RAG系统的各个方面。按照制定基准的程序,我们通过这些基准中提到的目标、数据集和指标进行分析,并将它们总结为一个RAG的统一评估过程(Auepora)。
统一的RAG评估过程(Auepora)
作者介绍了一个统一的RAG评估过程(Auepora),它关注基准测试的三个关键问题:评估什么?如何评估?如何量化?这些问题分别与目标(Target)、数据集(Dataset)和指标(Metric)相关。
目标模块旨在确定评估方向。数据集模块便于比较RAG基准测试中的各种数据结构。指标模块介绍了在评估过程中对具体目标和数据集用到的对应指标。
1、评估目标
RAG系统中的EOs(可评估输出)和GTs(真值)的组合可以生成所有可能的目标。这些目标可以根据特定的EOs对或EO与GT的配对来定义
1)检索:EOs是根据查询评估检索部分的相关文档。a, 相关性(相关文档 ↔ 查询)评估检索到的文档与查询中表达的信息需求的匹配程度。它衡量检索过程的精确度和独特性。b. 准确性(相关文档 ↔ 文档候选)评估检索到的文档与一组候选文档相比的准确性。它是衡量系统识别并将相关文档的评分高于较不相关或不相关文档的能力
2)生成:EOs是生成的文本和结构化的内容。a. 相关性(响应 ↔ 查询)衡量生成的响应与初始查询的意图和内容的一致程度。它确保响应与查询主题相关并满足查询的具体要求。 b. 忠实度(响应 ↔ 相关文档)评估生成的响应是否准确反映了相关文档中包含的信息,并衡量生成内容与源文档之间的一致性。 c. 正确性(响应 ↔ 样本响应)类似于检索组件中的准确性,这衡量生成响应与作为真实情况的样本响应的准确性。它检查响应在事实信息方面是否正确,以及在查询的上下文中是否适当。3)额外要求:除了评估概述的两个主要组件外,部分工作还涉及RAG的一些额外要求。CRUD-RAG 引入了一个全面的基准测试,涵盖了超越问答的RAG应用的更广泛范围,分为创建、读取、更新和删除场景。这个基准测试评估RAG系统在多样化任务中的性能,包括文本续写、问答、幻觉修改和多文档摘要。有助于优化不同场景下的RAG技术。DomainRAG 确定了RAG系统的六种复杂能力:对话、结构化信息、忠实度、去噪、时效性问题解决和多文档理解。