大型语言模型的行为并不像人类,尽管我们可能期望它们
大型语言模型 (LLM) 如此强大的原因之一是它们可以应用于各种任务。可以帮助研究生起草电子邮件的机器学习模型也可以帮助临床医生诊断癌症。然而,这些模型的广泛适用性也使得系统地评估它们变得具有挑战性。创建一个基准数据集来测试模型在每种类型的问题上的表现是不可能的。
在arXiv预印本服务器上发布的一篇新论文中,麻省理工学院的研究人员采用了不同的方法。他们认为,由于人类决定何时部署大型语言模型,因此评估模型需要了解人们如何形成对其能力的信念。
例如,研究生必须决定该模型是否有助于起草特定的电子邮件,而临床医生必须确定哪些案例最适合参考该模型。
基于这个想法,研究人员创建了一个框架来评估法学硕士 (LLM),该框架基于法学硕士与人类对其在某项任务中的表现的信念的一致性。
他们引入了人类泛化功能——一种模型,用于描述人们在与 LLM 互动后如何更新对 LLM 能力的信念。然后,他们评估 LLM 与这种人类泛化功能的匹配程度。
他们的结果表明,当模型与人类的泛化功能不一致时,用户可能会对在何处部署它们过于自信或不够自信,这可能会导致模型意外失败。此外,由于这种不一致,在高风险情况下,更强大的模型往往比较小的模型表现更差。
“这些工具令人兴奋,因为它们是通用的,但是因为它们是通用的,它们将与人合作,所以我们必须将人类考虑进去,”研究报告的共同作者、经济学助理教授兼信息和决策系统实验室(LIDS)首席研究员 Ashesh Rambachan 说。
与 Rambachan 一起参与撰写该论文的还有哈佛大学博士后 Keyon Vafa 和麻省理工学院电气工程与计算机科学系和经济学系教授、LIDS 成员 Sendhil Mullainathan。这项研究将于7 月 21 日至 27 日在奥地利维也纳举行的国际机器学习会议 ( ICML 2024 ) 上发表。
人类概括
当我们与他人互动时,我们会形成关于他们知道和不知道的事情的信念。例如,如果你的朋友喜欢纠正别人的语法,你可能会概括并认为他们也会擅长造句,即使你从未问过他们关于造句的问题。
“语言模型往往看起来很人性化。我们想说明这种人类概括的力量也存在于人们如何形成对语言模型的信念中,”Rambachan 说。
作为起点,研究人员正式定义了人类的泛化功能,其中包括提出问题、观察一个人或法学硕士如何反应,然后推断该人或模型将如何回答相关问题。
如果有人发现 LLM 可以正确回答矩阵求逆问题,他们可能也会认为它也能回答简单的算术问题。与此功能不一致的模型(在人类期望它正确回答的问题上表现不佳的模型)在部署时可能会失败。
有了这个正式定义,研究人员设计了一项调查来衡量人们在与法学硕士和其他人互动时如何概括。
他们向调查参与者展示了某个人或法学硕士答对或答错的问题,然后询问他们是否认为该人或法学硕士会正确回答相关问题。通过调查,他们生成了一个包含近 19,000 个示例的数据集,展示了人类如何概括法学硕士在 79 项不同任务中的表现。
测量错位
他们发现,当被问及答对一道题的人是否会正确回答相关问题时,参与者的表现相当好,但他们对法学硕士的表现的概括却差得多。
“人类的概括被应用于语言模型,但这会失败,因为这些语言模型实际上并不像人类那样表现出专业知识模式,”Rambachan 说。
当法学硕士答错问题时,人们更有可能改变对法学硕士的看法,而不是答对问题。他们还倾向于认为法学硕士在简单问题上的表现与其在更复杂问题上的表现几乎没有关系。
在人们更加重视错误答案的情况下,简单的模型比 GPT-4 等大型模型表现更好。
他说:“不断改进的语言模型几乎可以欺骗人们,让他们认为自己会在相关问题上表现良好,但事实并非如此。”
人类对 LLM 的概括能力较差的一个可能解释是,他们对于 LLM 的了解较少,因为人们与 LLM 互动的经验远少于与其他人互动的经验。
他说:“展望未来,我们有可能通过与语言模型进行更多互动而变得更好。”
为此,研究人员希望开展更多研究,了解人们在与模型互动时对法学硕士的信念如何随时间演变。他们还想探索如何将人类的概括能力融入法学硕士的发展中。
他说:“当我们首先训练这些算法,或者尝试用人类的反馈来更新它们时,我们需要在思考如何衡量性能时考虑人类的泛化功能。”
与此同时,研究人员希望他们的数据集可以作为基准,比较 LLM 与人类泛化功能相关的表现,这有助于提高在现实世界中部署的模型的性能。
“对我来说,这篇论文的贡献有两方面。首先是实用的:这篇论文揭示了将 LLM 部署到一般消费者使用中的关键问题。如果人们没有正确理解 LLM 何时准确、何时失败,那么他们就更有可能发现错误,并可能不愿意继续使用。
芝加哥大学布斯商学院行为科学与经济学教授亚历克斯·伊马斯 (Alex Imas) 表示:“这凸显了将模型与人们对普遍性的理解相结合的问题。”他并未参与这项研究。
“第二个贡献更为根本:缺乏对预期问题和领域的泛化有助于更好地了解模型在‘正确’解决问题时所做的事情。它提供了一个测试,可以测试 LLM 是否‘理解’他们正在解决的问题。”
页:
[1]