searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

RAG评估方法综述解读

2024-09-20 08:46:53
26
0

论文名:Evaluation of Retrieval-Augmented Generation: A Survey

作者: Hao Yu, Aoran Gan, Kai Zhang, Shiwei Tong, Qi Liu, and Zhaofeng Liu

引言

RAG( Retrieval-Augmented Generation,检索增强生成)系统主要包括检索和生成两个部分。检索:旨在从多个外部知识源中提取相关信息,包括索引和搜索。1)索引:索引阶段旨在组织文档以便于有效检索,其中使用倒排索引用于稀疏检索、密集向量编码用于密集检索。2)搜索:搜索阶段利用上述索引根据用户的query获取相关文档,通常也会结合可选的reranker来优化检索到的文档的排名。生成:利用检索到的内容和问题query在提示和推理阶段制定连贯且与上下文相关的回应。在推理阶段,LLMs根据prompt输入生成准确且深入的回应,这些回应与查询的意图一致,并整合了提取的信息,而无需进一步的微调。下图展示了所提到的RAG系统结构。

随着RAG特定方法的发展,评估RAG越来越重要。一方面,RAG是一个复杂的系统,与特定需求和语言模型紧密相连,促进了各种评估方法、指标和工具的出现。评估RAG系统包括特定组件和整个系统评估的复杂性。另一方面,RAG系统的复杂性由于外部动态数据库和各种下游任务而进一步增加,如内容创建或开放领域问答。这些挑战需要开发能够有效捕捉检索准确性和生成质量之间相互作用的全面评估指标。我们整理了12个不同的评估框架,涵盖了RAG系统的各个方面。按照制定基准的程序,我们通过这些基准中提到的目标、数据集和指标进行分析,并将它们总结为一个RAG的统一评估过程(Auepora)。

 

统一的RAG评估过程(Auepora)

作者介绍了一个统一的RAG评估过程(Auepora),它关注基准测试的三个关键问题:评估什么?如何评估?如何量化?这些问题分别与目标(Target)、数据集(Dataset)和指标(Metric)相关。

目标模块旨在确定评估方向。数据集模块便于比较RAG基准测试中的各种数据结构。指标模块介绍了在评估过程中对具体目标和数据集用到的对应指标。

1、评估目标

RAG系统中的EOs(可评估输出)和GTs(真值)的组合可以生成所有可能的目标。这些目标可以根据特定的EOs对或EO与GT的配对来定义

1)检索:EOs是根据查询评估检索部分的相关文档。a, 相关性(相关文档 ↔ 查询)评估检索到的文档与查询中表达的信息需求的匹配程度。它衡量检索过程的精确度和独特性。b. 准确性(相关文档 ↔ 文档候选)评估检索到的文档与一组候选文档相比的准确性。它是衡量系统识别并将相关文档的评分高于较不相关或不相关文档的能力

2)生成:EOs是生成的文本和结构化的内容。a. 相关性(响应 ↔ 查询)衡量生成的响应与初始查询的意图和内容的一致程度。它确保响应与查询主题相关并满足查询的具体要求。 b. 忠实度(响应 ↔ 相关文档)评估生成的响应是否准确反映了相关文档中包含的信息,并衡量生成内容与源文档之间的一致性。 c. 正确性(响应 ↔ 样本响应)类似于检索组件中的准确性,这衡量生成响应与作为真实情况的样本响应的准确性。它检查响应在事实信息方面是否正确,以及在查询的上下文中是否适当。3)额外要求:除了评估概述的两个主要组件外,部分工作还涉及RAG的一些额外要求。CRUD-RAG 引入了一个全面的基准测试,涵盖了超越问答的RAG应用的更广泛范围,分为创建、读取、更新和删除场景。这个基准测试评估RAG系统在多样化任务中的性能,包括文本续写、问答、幻觉修改和多文档摘要。有助于优化不同场景下的RAG技术。DomainRAG 确定了RAG系统的六种复杂能力:对话、结构化信息、忠实度、去噪、时效性问题解决和多文档理解。

2、评估数据集
不同的基准测试采用不同的策略来构建数据集,包括从利用现有资源到为特定评估方法生成全新的数据。
一些基准测试利用了KILT(知识密集型语言任务)基准测试(自然问题NQ、HotpotQA、FEVER) 和其他已建立的数据集,如SuperGLUE。然而,使用这些数据集的缺点是不能解决动态现实世界场景中的挑战。强大的LLMs的出现彻底改变了数据集构建过程。借助这些框架,学者们现在可以轻松地为特定的评估目标设计查询和真实情况,创建所需格式的数据集。基准测试如RGB、MultiHop-RAG、CRUD-RAGCDQA进一步采用了这种方法,通过使用在线新闻文章构建自己的数据集,测试RAG系统处理现实世界信息的能力,这些信息超出了LM框架的训练数据。最近,DomainRAG 结合了各种类型的QA数据集,包括单文档、多文档、单轮和多轮。
总之,创建和选择数据集对于评估RAG系统至关重要。针对特定指标或任务量身定制的数据集提高了评估准确性,并指导了适应现实世界信息需求的RAG系统的开发。
 
3、评估指标
检索指标
1)基于non-rank的指标:通常评估二元结果,即实例是否相关,而不考虑实例在排名列表中的位置。a. 准确性:是真实结果(真实正样本和真实负样本)在检查的总样本中的比例。b. 精确度:检索到的相关实例的分数FP代表假/错误的负样本。c. 召回率:在k处的召回率(Recall@k)是在仅考虑前k个结果的情况下,检索到的相关实例与相关实例总数的分数。
2)基于rank的指标:评估相关实例呈现的顺序,对排名列表中相关实例的位置给予更高的重视。a. 平均倒数排名(MRR):一组查询的第一个正确答案的倒数排名的平均值。b. 平均精度均值(MAP):每个查询的精度分数的平均值。
3)生成指标:
在生成领域,评估超越了生成响应的准确性,进入文本质量的领域,如连贯性、相关性、流畅性以及与人类判断的一致性。这需要能够评估语言生产的细微方面的指标,包括事实正确性、可读性以及用户对生成内容的满意度。
ROUGE(Recall-Oriented Understudy for Gisting Evaluation):旨在通过与人类生成的参考摘要进行比较来评估摘要质量的指标。ROUGE可以表明生成文本和参考文本之间的内容重叠(匹配的个数/参考文本的总n-gram个数)。ROUGE的变体衡量n-gram(ROUGE-N, ROUGE-W)、词子序列(ROUGE-L, ROUGE-S)和系统生成摘要与参考摘要之间的词对重叠。
BLEU(Bilingual Evaluation Understudy):评估机器翻译文本质量的一种指标,与一个或多个参考翻译进行比较。BLEU计算生成文本与参考文本相比的n-gram精确度(匹配的个数/机器翻译的总n-gram个数),然后应用简洁性惩罚以阻止过短的翻译。BLEU有局限性,例如不考虑生成文本的流畅性或语法正确性。
(ROUGE指标与BLEU指标非常类似,均可用来衡量生成结果和标准结果的匹配程度,不同的是ROUGE基于召回率,BLEU更看重准确率。)
BertScore :利用像BERT这样的预训练transformers的上下文嵌入来评估生成文本和参考文本之间的语义相似性。BertScore使用上下文嵌入计算token级相似性,并产生精确度、召回率和F1分数。与基于n-gram的指标不同,BertScore在上下文中捕捉词义,使其对释义和语义等价更鲁棒。
LLM作为法官:LLMs用于根据连贯性、相关性和流畅性等标准对生成文本进行评分。LLM可以选择性地在人类判断上进行微调,以预测未见文本的质量,或用于在零次或少次设置中生成评估。这种方法利用了LLM对语言和上下文的理解,提供了更细致的文本质量评估。
 
0条评论
作者已关闭评论
李****戈
6文章数
0粉丝数
李****戈
6 文章 | 0 粉丝
原创

RAG评估方法综述解读

2024-09-20 08:46:53
26
0

论文名:Evaluation of Retrieval-Augmented Generation: A Survey

作者: Hao Yu, Aoran Gan, Kai Zhang, Shiwei Tong, Qi Liu, and Zhaofeng Liu

引言

RAG( Retrieval-Augmented Generation,检索增强生成)系统主要包括检索和生成两个部分。检索:旨在从多个外部知识源中提取相关信息,包括索引和搜索。1)索引:索引阶段旨在组织文档以便于有效检索,其中使用倒排索引用于稀疏检索、密集向量编码用于密集检索。2)搜索:搜索阶段利用上述索引根据用户的query获取相关文档,通常也会结合可选的reranker来优化检索到的文档的排名。生成:利用检索到的内容和问题query在提示和推理阶段制定连贯且与上下文相关的回应。在推理阶段,LLMs根据prompt输入生成准确且深入的回应,这些回应与查询的意图一致,并整合了提取的信息,而无需进一步的微调。下图展示了所提到的RAG系统结构。

随着RAG特定方法的发展,评估RAG越来越重要。一方面,RAG是一个复杂的系统,与特定需求和语言模型紧密相连,促进了各种评估方法、指标和工具的出现。评估RAG系统包括特定组件和整个系统评估的复杂性。另一方面,RAG系统的复杂性由于外部动态数据库和各种下游任务而进一步增加,如内容创建或开放领域问答。这些挑战需要开发能够有效捕捉检索准确性和生成质量之间相互作用的全面评估指标。我们整理了12个不同的评估框架,涵盖了RAG系统的各个方面。按照制定基准的程序,我们通过这些基准中提到的目标、数据集和指标进行分析,并将它们总结为一个RAG的统一评估过程(Auepora)。

 

统一的RAG评估过程(Auepora)

作者介绍了一个统一的RAG评估过程(Auepora),它关注基准测试的三个关键问题:评估什么?如何评估?如何量化?这些问题分别与目标(Target)、数据集(Dataset)和指标(Metric)相关。

目标模块旨在确定评估方向。数据集模块便于比较RAG基准测试中的各种数据结构。指标模块介绍了在评估过程中对具体目标和数据集用到的对应指标。

1、评估目标

RAG系统中的EOs(可评估输出)和GTs(真值)的组合可以生成所有可能的目标。这些目标可以根据特定的EOs对或EO与GT的配对来定义

1)检索:EOs是根据查询评估检索部分的相关文档。a, 相关性(相关文档 ↔ 查询)评估检索到的文档与查询中表达的信息需求的匹配程度。它衡量检索过程的精确度和独特性。b. 准确性(相关文档 ↔ 文档候选)评估检索到的文档与一组候选文档相比的准确性。它是衡量系统识别并将相关文档的评分高于较不相关或不相关文档的能力

2)生成:EOs是生成的文本和结构化的内容。a. 相关性(响应 ↔ 查询)衡量生成的响应与初始查询的意图和内容的一致程度。它确保响应与查询主题相关并满足查询的具体要求。 b. 忠实度(响应 ↔ 相关文档)评估生成的响应是否准确反映了相关文档中包含的信息,并衡量生成内容与源文档之间的一致性。 c. 正确性(响应 ↔ 样本响应)类似于检索组件中的准确性,这衡量生成响应与作为真实情况的样本响应的准确性。它检查响应在事实信息方面是否正确,以及在查询的上下文中是否适当。3)额外要求:除了评估概述的两个主要组件外,部分工作还涉及RAG的一些额外要求。CRUD-RAG 引入了一个全面的基准测试,涵盖了超越问答的RAG应用的更广泛范围,分为创建、读取、更新和删除场景。这个基准测试评估RAG系统在多样化任务中的性能,包括文本续写、问答、幻觉修改和多文档摘要。有助于优化不同场景下的RAG技术。DomainRAG 确定了RAG系统的六种复杂能力:对话、结构化信息、忠实度、去噪、时效性问题解决和多文档理解。

2、评估数据集
不同的基准测试采用不同的策略来构建数据集,包括从利用现有资源到为特定评估方法生成全新的数据。
一些基准测试利用了KILT(知识密集型语言任务)基准测试(自然问题NQ、HotpotQA、FEVER) 和其他已建立的数据集,如SuperGLUE。然而,使用这些数据集的缺点是不能解决动态现实世界场景中的挑战。强大的LLMs的出现彻底改变了数据集构建过程。借助这些框架,学者们现在可以轻松地为特定的评估目标设计查询和真实情况,创建所需格式的数据集。基准测试如RGB、MultiHop-RAG、CRUD-RAGCDQA进一步采用了这种方法,通过使用在线新闻文章构建自己的数据集,测试RAG系统处理现实世界信息的能力,这些信息超出了LM框架的训练数据。最近,DomainRAG 结合了各种类型的QA数据集,包括单文档、多文档、单轮和多轮。
总之,创建和选择数据集对于评估RAG系统至关重要。针对特定指标或任务量身定制的数据集提高了评估准确性,并指导了适应现实世界信息需求的RAG系统的开发。
 
3、评估指标
检索指标
1)基于non-rank的指标:通常评估二元结果,即实例是否相关,而不考虑实例在排名列表中的位置。a. 准确性:是真实结果(真实正样本和真实负样本)在检查的总样本中的比例。b. 精确度:检索到的相关实例的分数FP代表假/错误的负样本。c. 召回率:在k处的召回率(Recall@k)是在仅考虑前k个结果的情况下,检索到的相关实例与相关实例总数的分数。
2)基于rank的指标:评估相关实例呈现的顺序,对排名列表中相关实例的位置给予更高的重视。a. 平均倒数排名(MRR):一组查询的第一个正确答案的倒数排名的平均值。b. 平均精度均值(MAP):每个查询的精度分数的平均值。
3)生成指标:
在生成领域,评估超越了生成响应的准确性,进入文本质量的领域,如连贯性、相关性、流畅性以及与人类判断的一致性。这需要能够评估语言生产的细微方面的指标,包括事实正确性、可读性以及用户对生成内容的满意度。
ROUGE(Recall-Oriented Understudy for Gisting Evaluation):旨在通过与人类生成的参考摘要进行比较来评估摘要质量的指标。ROUGE可以表明生成文本和参考文本之间的内容重叠(匹配的个数/参考文本的总n-gram个数)。ROUGE的变体衡量n-gram(ROUGE-N, ROUGE-W)、词子序列(ROUGE-L, ROUGE-S)和系统生成摘要与参考摘要之间的词对重叠。
BLEU(Bilingual Evaluation Understudy):评估机器翻译文本质量的一种指标,与一个或多个参考翻译进行比较。BLEU计算生成文本与参考文本相比的n-gram精确度(匹配的个数/机器翻译的总n-gram个数),然后应用简洁性惩罚以阻止过短的翻译。BLEU有局限性,例如不考虑生成文本的流畅性或语法正确性。
(ROUGE指标与BLEU指标非常类似,均可用来衡量生成结果和标准结果的匹配程度,不同的是ROUGE基于召回率,BLEU更看重准确率。)
BertScore :利用像BERT这样的预训练transformers的上下文嵌入来评估生成文本和参考文本之间的语义相似性。BertScore使用上下文嵌入计算token级相似性,并产生精确度、召回率和F1分数。与基于n-gram的指标不同,BertScore在上下文中捕捉词义,使其对释义和语义等价更鲁棒。
LLM作为法官:LLMs用于根据连贯性、相关性和流畅性等标准对生成文本进行评分。LLM可以选择性地在人类判断上进行微调,以预测未见文本的质量,或用于在零次或少次设置中生成评估。这种方法利用了LLM对语言和上下文的理解,提供了更细致的文本质量评估。
 
文章来自个人专栏
文章 | 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0