searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

Mind2Web 2:代理型搜索评估新框架

2025-07-01 05:47:11
1
0

论文:Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

引言

随着互联网的普及,网络搜索已成为人们获取信息的主要途径之一。从日常生活中的事实核查到前沿科学发现,网络搜索一直是知识获取的关键入口。然而,传统的网络搜索方式主要依赖用户手动查询和整合信息,这给用户带来了巨大的认知负担。近年来,大型语言模型(LLM)的快速发展推动了代理型搜索系统的兴起,这些系统能够自主地在互联网上浏览、收集信息,并以引用支持的方式回答复杂问题。代理型搜索系统代表了用户与大规模信息交互方式的重大转变,有望显著提高效率并减轻用户的认知负担,但其日益增长的复杂性和开放性也对现有的评估基准和方法提出了挑战。

背景知识

在过去的几十年中,网络搜索技术经历了不断的演变,从 TF-IDF 到 PageRank 再到监督学习中的学习排序。然而,核心交互模式基本保持不变:用户发出查询,获得排名的 URL 列表,然后手动打开、阅读并整合多个网页以回答复杂问题。这种传统的网络搜索方式本质上是由用户驱动的,用户需要手动检索信息并将其组合起来,这在数字世界日益复杂的情况下给用户带来了巨大的认知负担。

近年来,大型语言模型(LLM)的进步推动了代理型搜索系统的发展。与传统的搜索方式不同,代理型搜索系统能够分解和规划复杂的查询,迭代地在互联网上搜索并与动态网页交互,最后将信息整合成带有引用支持的响应。这些系统通过将许多低级任务(如查询分解和重新表述、网络浏览和基本分析)交给不知疲倦的 AI 代理来完成,从而赋能用户将认知能力集中在更重要的事情上,如监督和决策,从而提高搜索效率和质量。

研究方法

为了应对现有评估基准和方法在评估复杂、动态答案时的不足,本文提出了 Mind2Web 2,这是一个包含 130 个现实、高质量、长期任务的基准测试,旨在严格评估代理型搜索系统在实时网络搜索和浏览方面的表现。Mind2Web 2 的任务涵盖了多个实际领域,如生活方式与休闲、娱乐、科学与研究等,每个任务都经过精心设计和验证,以确保其真实性、复杂性和可验证性。

此外,本文还提出了一种新颖的“代理即法官”(Agent-as-a-Judge)评估框架,以自动且可靠地评估代理型搜索系统生成的复杂答案。该框架基于树形结构的评分标准,将评估分解为层次化的评估节点,每个叶节点对应一个可通过简单验证评估的标准,得出 0 或 1 的二元分数。父节点根据各种聚合逻辑对子节点的分数进行迭代聚合,以确定更高级别标准的分数。这种评分标准树能够清晰地分解复杂评估,确保评估过程的透明性和可操作性。

实验与结果

在 Mind2Web 2 上,作者对九个前沿的代理型搜索系统以及人类表现进行了全面评估,并进行了详细的错误分析。结果显示,表现最好的系统是 OpenAI Deep Research,其性能已经达到了人类性能的 50%-70%,同时花费的时间不到人类的一半。尽管当前系统与人类相比仍存在不足,但其在某些需要高度关注细节和搜索全面性的任务上表现优于人类,这表明代理型搜索系统在减轻人类认知负担方面具有巨大潜力。

关键结论

Mind2Web 2 为开发和评估下一代代理型搜索系统提供了严格的基础。通过“代理即法官”的方法,该基准能够对长期任务和动态答案进行可靠评估,揭示了现有代理型搜索系统的潜力和局限性,并为未来的发展方向提供了重要启示。

详细解读

1. 评估基准的挑战

现有的评估基准和方法在面对代理型搜索系统的复杂性和任务的开放性时显得力不从心。许多基准测试主要关注单个网页上的任务或具有固定答案的任务,而对于需要跨多个网页搜索和实时信息收集的复杂任务则难以有效评估。此外,现有方法通常假设答案是静态的,无法处理随时间变化的答案。这些局限性使得现有基准无法全面评估代理型搜索系统的能力,尤其是在处理长时间跨度任务和需要实时信息收集的场景中。

2. Mind2Web 2 的任务设计

Mind2Web 2 的任务设计旨在解决现有基准的不足,其任务具有以下特点:

  • 真实性与多样性:任务反映了实际用户需求,涵盖了多个实际领域,如生活方式与休闲、娱乐、科学与研究等。

  • 长期性与劳动密集型:任务需要进行广泛的网络搜索和信息整合,通常需要人类花费至少五分钟才能完成。

  • 客观性与可验证性:每个任务都有明确的评估标准,可以通过检查答案文本和引用的网页来验证。

  • 动态性:鼓励设计随时间变化的答案,例如产品价格、新闻动态等。

为了确保任务的质量,任务收集团队由提出者、细化专家和验证专家组成。他们经过多轮迭代和验证,确保任务的真实性和可验证性。例如,在任务提出阶段,提出者根据实际搜索需求或领域指南生成任务想法;在细化阶段,专家与提出者合作,对任务进行迭代修改,确保任务符合设计原则;在验证阶段,验证专家手动尝试并验证每个任务,确保任务的可行性和评估的实用性。

3. 评分标准树的设计

评分标准树是 Mind2Web 2 评估框架的核心,它通过将评估分解为层次化的评估节点,使得复杂的评估过程变得可管理。评分标准树的每个叶节点代表一个可通过简单验证评估的标准,例如验证某个事实是否正确、某个信息是否来自指定来源等。这些叶节点的二元分数(0 或 1)通过父节点的各种聚合逻辑进行迭代聚合,最终得出根节点的总分。

评分标准树中的节点分为关键节点和非关键节点。关键节点代表必须满足的基本标准,其失败会立即导致其父节点失败;而非关键节点允许可选的部分评分,以反映任务的部分完成情况。例如,在一个任务中,如果要求找到一件商品并在预算范围内,那么预算验证就是一个关键节点,如果预算不达标,整个任务就会失败。而非关键节点可能涉及对商品特征的部分验证,即使某些特征未完全满足,任务仍可能获得部分分数。

此外,评分标准树还支持顺序节点,这些节点反映了子节点之间的逻辑依赖关系。例如,如果一个任务要求先找到一篇论文,然后找到该论文第一作者的email,那么找到论文就是一个顺序节点,只有在完成这一节点后,才会评估email节点。这种设计确保了评估过程的逻辑性和连贯性。

4. 法官代理的实现

法官代理是基于评分标准树实现的具体评估工具,它能够自动评估代理型搜索系统生成的答案。每个法官代理都是一个 Python 脚本,它结合了基于 LLM 的信息提取、LLM 作为法官和工具调用,以实现对答案的自动评估。

法官代理主要利用两个基于 LLM 的工具:提取器和验证器。提取器负责从答案文本中提取结构化信息,例如商品名称、价格、URL 等;验证器则对提取的信息进行验证,例如验证某个陈述是否与引用的网页内容一致。这两个工具通过评分标准树的节点进行操作,每个节点对应特定的验证任务。

为了实现法官代理的自动化开发,作者开发了一个模块化的 Python 工具包,封装了可重用的评分标准管理和标准化的提取器和验证器模块。这大大减少了开发法官代理的编码工作量,使注释者能够专注于评分标准的设计而非代码细节。此外,作者还构建了一个基于 LLM 的代码生成管道,能够生成法官代理脚本的初始版本,并通过自我调试和自我反思的迭代过程进行自动优化和改进。

5. 实验评估

作者在 Mind2Web 2 上对九个前沿的代理型搜索系统进行了评估,包括 ChatGPT Search、Perplexity Pro Search、OpenAI Operator、HF Open Deep Research、Perplexity Deep Research、Gemini Deep Research、Grok DeepSearch、Grok DeeperSearch 和 OpenAI Deep Research。这些系统代表了从搜索优化型 LLM 到基于 LLM 的自主网络代理以及专门针对长时间浏览和搜索行为优化的 Deep Research 系统。

评估结果显示,OpenAI Deep Research 是表现最好的系统,其部分完成度达到了 54%±4%,成功率为 28%±4%,平均任务完成时间为 8.40 分钟,平均答案长度为 559±19 个单词。相比之下,人类在 30 个子任务上的部分完成度为 79%±1%,成功率为 54%±7%,平均任务完成时间为 18.40 分钟,平均答案长度为 186±27 个单词。这表明 OpenAI Deep Research 在性能上已经接近人类水平,在某些任务上甚至超过了人类,尤其是在那些需要高度关注细节和搜索全面性的任务中。

6. 错误分析

为了深入了解代理型搜索系统的失败模式,作者对当前系统进行了详细的错误分析。通过对 30 个子任务中的答案进行手动标记,识别了七种常见的错误类别:不完整性、标准违反、无效归属、缺失归属、不支持答案(包括合成错误和检索错误)、以及系统错误。这些错误类型揭示了代理型搜索系统在处理复杂任务时的主要挑战,包括幻觉(即生成与检索到的信息不符的答案)、对任务要求的理解不足、以及信息整合和验证的困难。

例如,幻觉错误在所有系统中都很常见,尤其是在那些没有实时浏览功能或仅具备有限浏览功能的系统中。这些系统可能会生成过时或虚构的信息,因为它们无法实时访问网页。此外,系统错误(如代码生成错误或工具调用错误)在某些开源系统中也较为常见,这些错误会导致系统过早终止任务,无法完成预期的搜索和信息整合过程。

7. 人类评估

为了验证法官代理的可靠性,作者还进行了人类评估研究。人类评估者对 15 个随机抽样的任务进行了评分标准树的评估和节点级别的评估。结果显示,人类评估者对评分标准树的评估结果与作者的设计高度一致,仅有少数建议涉及评分标准的部分评分严格性。在节点级别的评估中,人类评估者与自动化法官代理之间的不一致率仅为 0.97%,这表明法官代理在评估过程中具有极高的可靠性。

8. 广泛影响与伦理考量

Mind2Web 2 的发布和使用可能会带来一系列广泛的伦理影响。一方面,先进的代理型搜索系统有望改变用户与网络信息交互的方式,减轻认知负担,提高效率,并支持教育、医疗、商业和政策制定等各个领域的知情决策。另一方面,它也可能加剧虚假信息的传播,因为系统可能会生成看似合理但不正确或无支持的信息。此外,代理系统可能会延续网络内容中现有的偏见,引发公平性问题,并可能导致歧视性结果。因此,可靠且可扩展的评估成为检测和缓解这些问题的第一道防线。

9. 未来工作与维护

作者承诺将对 Mind2Web 2 基准进行长期维护,定期审查任务,并根据用户反馈进行更新。如果网页的重大变化或不可用显著改变了任务的难度或可解性,作者将更新受影响的任务或用新的任务替换它们,以保持基准的完整性和预期挑战水平。

总结

Mind2Web 2 是一个开创性的基准测试,它为评估代理型搜索系统提供了一个全新的视角和方法。通过引入“代理即法官”的评估框架,Mind2Web 2 能够可靠地评估复杂、长期的网络搜索任务,为代理型搜索系统的发展和改进提供了宝贵的基准和方向。尽管当前系统仍存在局限性,但 Mind2Web 2 的评估结果揭示了代理型搜索系统的潜力,并为未来的研究和开发提供了重要的指导。

这一基准的出现不仅推动了代理型搜索技术的进步,也为人工智能在信息检索和知识发现领域的应用开辟了新的道路。随着技术的不断发展和基准的持续完善,我们有理由相信,代理型搜索系统将在未来发挥更加重要的作用,为人类的信息需求提供更高效、更准确的解决方案。

0条评论
0 / 1000
Andy
8文章数
0粉丝数
Andy
8 文章 | 0 粉丝
原创

Mind2Web 2:代理型搜索评估新框架

2025-07-01 05:47:11
1
0

论文:Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

引言

随着互联网的普及,网络搜索已成为人们获取信息的主要途径之一。从日常生活中的事实核查到前沿科学发现,网络搜索一直是知识获取的关键入口。然而,传统的网络搜索方式主要依赖用户手动查询和整合信息,这给用户带来了巨大的认知负担。近年来,大型语言模型(LLM)的快速发展推动了代理型搜索系统的兴起,这些系统能够自主地在互联网上浏览、收集信息,并以引用支持的方式回答复杂问题。代理型搜索系统代表了用户与大规模信息交互方式的重大转变,有望显著提高效率并减轻用户的认知负担,但其日益增长的复杂性和开放性也对现有的评估基准和方法提出了挑战。

背景知识

在过去的几十年中,网络搜索技术经历了不断的演变,从 TF-IDF 到 PageRank 再到监督学习中的学习排序。然而,核心交互模式基本保持不变:用户发出查询,获得排名的 URL 列表,然后手动打开、阅读并整合多个网页以回答复杂问题。这种传统的网络搜索方式本质上是由用户驱动的,用户需要手动检索信息并将其组合起来,这在数字世界日益复杂的情况下给用户带来了巨大的认知负担。

近年来,大型语言模型(LLM)的进步推动了代理型搜索系统的发展。与传统的搜索方式不同,代理型搜索系统能够分解和规划复杂的查询,迭代地在互联网上搜索并与动态网页交互,最后将信息整合成带有引用支持的响应。这些系统通过将许多低级任务(如查询分解和重新表述、网络浏览和基本分析)交给不知疲倦的 AI 代理来完成,从而赋能用户将认知能力集中在更重要的事情上,如监督和决策,从而提高搜索效率和质量。

研究方法

为了应对现有评估基准和方法在评估复杂、动态答案时的不足,本文提出了 Mind2Web 2,这是一个包含 130 个现实、高质量、长期任务的基准测试,旨在严格评估代理型搜索系统在实时网络搜索和浏览方面的表现。Mind2Web 2 的任务涵盖了多个实际领域,如生活方式与休闲、娱乐、科学与研究等,每个任务都经过精心设计和验证,以确保其真实性、复杂性和可验证性。

此外,本文还提出了一种新颖的“代理即法官”(Agent-as-a-Judge)评估框架,以自动且可靠地评估代理型搜索系统生成的复杂答案。该框架基于树形结构的评分标准,将评估分解为层次化的评估节点,每个叶节点对应一个可通过简单验证评估的标准,得出 0 或 1 的二元分数。父节点根据各种聚合逻辑对子节点的分数进行迭代聚合,以确定更高级别标准的分数。这种评分标准树能够清晰地分解复杂评估,确保评估过程的透明性和可操作性。

实验与结果

在 Mind2Web 2 上,作者对九个前沿的代理型搜索系统以及人类表现进行了全面评估,并进行了详细的错误分析。结果显示,表现最好的系统是 OpenAI Deep Research,其性能已经达到了人类性能的 50%-70%,同时花费的时间不到人类的一半。尽管当前系统与人类相比仍存在不足,但其在某些需要高度关注细节和搜索全面性的任务上表现优于人类,这表明代理型搜索系统在减轻人类认知负担方面具有巨大潜力。

关键结论

Mind2Web 2 为开发和评估下一代代理型搜索系统提供了严格的基础。通过“代理即法官”的方法,该基准能够对长期任务和动态答案进行可靠评估,揭示了现有代理型搜索系统的潜力和局限性,并为未来的发展方向提供了重要启示。

详细解读

1. 评估基准的挑战

现有的评估基准和方法在面对代理型搜索系统的复杂性和任务的开放性时显得力不从心。许多基准测试主要关注单个网页上的任务或具有固定答案的任务,而对于需要跨多个网页搜索和实时信息收集的复杂任务则难以有效评估。此外,现有方法通常假设答案是静态的,无法处理随时间变化的答案。这些局限性使得现有基准无法全面评估代理型搜索系统的能力,尤其是在处理长时间跨度任务和需要实时信息收集的场景中。

2. Mind2Web 2 的任务设计

Mind2Web 2 的任务设计旨在解决现有基准的不足,其任务具有以下特点:

  • 真实性与多样性:任务反映了实际用户需求,涵盖了多个实际领域,如生活方式与休闲、娱乐、科学与研究等。

  • 长期性与劳动密集型:任务需要进行广泛的网络搜索和信息整合,通常需要人类花费至少五分钟才能完成。

  • 客观性与可验证性:每个任务都有明确的评估标准,可以通过检查答案文本和引用的网页来验证。

  • 动态性:鼓励设计随时间变化的答案,例如产品价格、新闻动态等。

为了确保任务的质量,任务收集团队由提出者、细化专家和验证专家组成。他们经过多轮迭代和验证,确保任务的真实性和可验证性。例如,在任务提出阶段,提出者根据实际搜索需求或领域指南生成任务想法;在细化阶段,专家与提出者合作,对任务进行迭代修改,确保任务符合设计原则;在验证阶段,验证专家手动尝试并验证每个任务,确保任务的可行性和评估的实用性。

3. 评分标准树的设计

评分标准树是 Mind2Web 2 评估框架的核心,它通过将评估分解为层次化的评估节点,使得复杂的评估过程变得可管理。评分标准树的每个叶节点代表一个可通过简单验证评估的标准,例如验证某个事实是否正确、某个信息是否来自指定来源等。这些叶节点的二元分数(0 或 1)通过父节点的各种聚合逻辑进行迭代聚合,最终得出根节点的总分。

评分标准树中的节点分为关键节点和非关键节点。关键节点代表必须满足的基本标准,其失败会立即导致其父节点失败;而非关键节点允许可选的部分评分,以反映任务的部分完成情况。例如,在一个任务中,如果要求找到一件商品并在预算范围内,那么预算验证就是一个关键节点,如果预算不达标,整个任务就会失败。而非关键节点可能涉及对商品特征的部分验证,即使某些特征未完全满足,任务仍可能获得部分分数。

此外,评分标准树还支持顺序节点,这些节点反映了子节点之间的逻辑依赖关系。例如,如果一个任务要求先找到一篇论文,然后找到该论文第一作者的email,那么找到论文就是一个顺序节点,只有在完成这一节点后,才会评估email节点。这种设计确保了评估过程的逻辑性和连贯性。

4. 法官代理的实现

法官代理是基于评分标准树实现的具体评估工具,它能够自动评估代理型搜索系统生成的答案。每个法官代理都是一个 Python 脚本,它结合了基于 LLM 的信息提取、LLM 作为法官和工具调用,以实现对答案的自动评估。

法官代理主要利用两个基于 LLM 的工具:提取器和验证器。提取器负责从答案文本中提取结构化信息,例如商品名称、价格、URL 等;验证器则对提取的信息进行验证,例如验证某个陈述是否与引用的网页内容一致。这两个工具通过评分标准树的节点进行操作,每个节点对应特定的验证任务。

为了实现法官代理的自动化开发,作者开发了一个模块化的 Python 工具包,封装了可重用的评分标准管理和标准化的提取器和验证器模块。这大大减少了开发法官代理的编码工作量,使注释者能够专注于评分标准的设计而非代码细节。此外,作者还构建了一个基于 LLM 的代码生成管道,能够生成法官代理脚本的初始版本,并通过自我调试和自我反思的迭代过程进行自动优化和改进。

5. 实验评估

作者在 Mind2Web 2 上对九个前沿的代理型搜索系统进行了评估,包括 ChatGPT Search、Perplexity Pro Search、OpenAI Operator、HF Open Deep Research、Perplexity Deep Research、Gemini Deep Research、Grok DeepSearch、Grok DeeperSearch 和 OpenAI Deep Research。这些系统代表了从搜索优化型 LLM 到基于 LLM 的自主网络代理以及专门针对长时间浏览和搜索行为优化的 Deep Research 系统。

评估结果显示,OpenAI Deep Research 是表现最好的系统,其部分完成度达到了 54%±4%,成功率为 28%±4%,平均任务完成时间为 8.40 分钟,平均答案长度为 559±19 个单词。相比之下,人类在 30 个子任务上的部分完成度为 79%±1%,成功率为 54%±7%,平均任务完成时间为 18.40 分钟,平均答案长度为 186±27 个单词。这表明 OpenAI Deep Research 在性能上已经接近人类水平,在某些任务上甚至超过了人类,尤其是在那些需要高度关注细节和搜索全面性的任务中。

6. 错误分析

为了深入了解代理型搜索系统的失败模式,作者对当前系统进行了详细的错误分析。通过对 30 个子任务中的答案进行手动标记,识别了七种常见的错误类别:不完整性、标准违反、无效归属、缺失归属、不支持答案(包括合成错误和检索错误)、以及系统错误。这些错误类型揭示了代理型搜索系统在处理复杂任务时的主要挑战,包括幻觉(即生成与检索到的信息不符的答案)、对任务要求的理解不足、以及信息整合和验证的困难。

例如,幻觉错误在所有系统中都很常见,尤其是在那些没有实时浏览功能或仅具备有限浏览功能的系统中。这些系统可能会生成过时或虚构的信息,因为它们无法实时访问网页。此外,系统错误(如代码生成错误或工具调用错误)在某些开源系统中也较为常见,这些错误会导致系统过早终止任务,无法完成预期的搜索和信息整合过程。

7. 人类评估

为了验证法官代理的可靠性,作者还进行了人类评估研究。人类评估者对 15 个随机抽样的任务进行了评分标准树的评估和节点级别的评估。结果显示,人类评估者对评分标准树的评估结果与作者的设计高度一致,仅有少数建议涉及评分标准的部分评分严格性。在节点级别的评估中,人类评估者与自动化法官代理之间的不一致率仅为 0.97%,这表明法官代理在评估过程中具有极高的可靠性。

8. 广泛影响与伦理考量

Mind2Web 2 的发布和使用可能会带来一系列广泛的伦理影响。一方面,先进的代理型搜索系统有望改变用户与网络信息交互的方式,减轻认知负担,提高效率,并支持教育、医疗、商业和政策制定等各个领域的知情决策。另一方面,它也可能加剧虚假信息的传播,因为系统可能会生成看似合理但不正确或无支持的信息。此外,代理系统可能会延续网络内容中现有的偏见,引发公平性问题,并可能导致歧视性结果。因此,可靠且可扩展的评估成为检测和缓解这些问题的第一道防线。

9. 未来工作与维护

作者承诺将对 Mind2Web 2 基准进行长期维护,定期审查任务,并根据用户反馈进行更新。如果网页的重大变化或不可用显著改变了任务的难度或可解性,作者将更新受影响的任务或用新的任务替换它们,以保持基准的完整性和预期挑战水平。

总结

Mind2Web 2 是一个开创性的基准测试,它为评估代理型搜索系统提供了一个全新的视角和方法。通过引入“代理即法官”的评估框架,Mind2Web 2 能够可靠地评估复杂、长期的网络搜索任务,为代理型搜索系统的发展和改进提供了宝贵的基准和方向。尽管当前系统仍存在局限性,但 Mind2Web 2 的评估结果揭示了代理型搜索系统的潜力,并为未来的研究和开发提供了重要的指导。

这一基准的出现不仅推动了代理型搜索技术的进步,也为人工智能在信息检索和知识发现领域的应用开辟了新的道路。随着技术的不断发展和基准的持续完善,我们有理由相信,代理型搜索系统将在未来发挥更加重要的作用,为人类的信息需求提供更高效、更准确的解决方案。

文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
0
0