Josiah02 发表于 2024-11-4 20:59:25

团队介绍了一种经济高效的方法来重新设计人工智能搜索引擎

未来的互联网搜索引擎将由人工智能驱动。人们已经可以从众多人工智能驱动或人工智能增强的搜索引擎中进行选择——尽管它们的可靠性往往仍不尽如人意。然而,马萨诸塞大学阿默斯特分校的一组计算机科学家最近发布并发布了一种用于评估人工智能生成的搜索可靠性的新系统。
该方法被称为“eRAG”,是一种让人工智能和搜索引擎相互对话的方法,然后评估搜索引擎在人工智能方面的质量。该研究成果发表在第 47 届国际 ACM SIGIR 信息检索研究与开发会议论文集上。
“我们一直使用的所有搜索引擎都是为人类设计的,”马萨诸塞大学阿默斯特分校曼宁信息与计算机科学学院的研究生兼论文主要作者 Alireza Salemi 说道。
“当用户是人类时,它们会很好地工作,但未来主要用户的搜索引擎将是人工智能大型语言模型 (LLM) 之一,例如 ChatGPT。这意味着我们需要彻底重新设计搜索引擎的工作方式,我的研究探索了 LLM 和搜索引擎如何相互学习。”
Salemi 和该研究的资深作者、马萨诸塞大学阿默斯特分校信息与计算机科学副教授 Hamed Zamani 面临的基本问题是,人类和法学硕士在信息需求和消费行为上有着非常不同的。
比如,如果你记不清刚刚出版的新书的书名和作者,你可以输入一系列常规搜索词,如“那位著名作家的新间谍小说是什么,是否与环境有关”,然后缩小搜索范围,或者在你记起更多信息时再进行一次搜索(作者是一位女性,写了小说《火焰喷射器》),直到找到正确的结果(雷切尔·库什纳的《创造湖》——谷歌在完成上述过程后将其作为第三个结果返回)。
但这就是人类的工作方式,而不是法学硕士的工作方式。他们接受过特定、庞大数据集的训练,任何不在该数据集中的内容(例如刚刚上架的新书)对法学硕士来说实际上是看不见的。
此外,它们对于模糊请求并不是特别可靠,因为 LLM 需要能够向引擎询问更多信息;但要做到这一点,它需要知道要询问的正确的附加信息。
计算机科学家发明了一种帮助法学硕士评估和选择所需信息的方法,称为“检索增强生成”或 RAG。RAG 是一种利用搜索引擎生成的结果列表来增强法学硕士的方法。但当然,问题是,如何评估检索结果对法学硕士的有用程度?
到目前为止,研究人员已经提出了三种主要方法:第一种方法是众包一组人类来判断相关性的准确性。然而,这种方法成本很高,而且人类可能不像法学硕士那样具有相关性判断能力。
你也可以让 LLM 生成相关性判断,这种方法成本更低,但除非你能够使用最强大的 LLM 模型之一,否则准确性会受到影响。第三种方法是评估检索增强型 LLM 的端到端性能,这也是黄金标准。
但即使是第三种方法也有其缺点。“它非常昂贵,”萨莱米说,“而且存在一些有关透明度的问题。我们不知道法学硕士是如何得出结果的;我们只知道它要么得出了结果,要么没有得出结果。”此外,目前有几十个法学硕士项目,每个项目的工作方式都不同,得出的答案也不同。
相反,Salemi 和 Zamani 开发了 eRAG,它与黄金标准方法类似,但成本效益更高,速度提高了三倍,GPU 功耗降低了 50 倍,而且几乎同样可靠。
“为 AI 代理开发有效搜索引擎的第一步是准确评估它们,”Zamani 说。“eRAG 为 AI 代理正在使用的搜索引擎提供了一种可靠、相对高效且有效的评估方法。”
简而言之,eRAG 的工作原理如下:人类用户使用 LLM 驱动的 AI 代理来完成任务。AI 代理将向搜索引擎提交查询,搜索引擎将返回一定数量的结果(例如 50 个)供 LLM 使用。
eRAG 将 50 份文档逐一通过 LLM 进行测试,以找出 LLM 认为哪些特定文档有助于生成正确的输出。然后汇总这些文档级分数,以评估 AI 代理的搜索引擎质量。
虽然目前还没有搜索引擎可以与所有已开发的主要 LLM 兼容,但 eRAG 的准确性、成本效益和易用性是我们所有搜索引擎都运行在 AI 上的重要一步。
这项研究获得了计算机协会信息检索研究与开发国际会议 (SIGIR 2024) 的最佳短文奖。

页: [1]
查看完整版本: 团队介绍了一种经济高效的方法来重新设计人工智能搜索引擎