用户友好型系统让验证 AI 模型的响应变得更加容易

Josiah02 · 发表于 2024-10-23 12:21:14

尽管大型语言模型功能强大，但它们远非完美。这些人工智能模型有时会产生“幻觉”，在回答查询时生成不正确或不受支持的信息。
由于这种幻觉问题，法学硕士的回答通常由人类事实核查员进行验证，尤其是当模型部署在医疗保健或金融等高风险环境中时。然而，验证过程通常需要人们通读模型引用的长篇文档，这项任务非常繁重且容易出错，可能会阻止一些用户部署生成式人工智能模型。
为了帮助人工验证，麻省理工学院的研究人员创建了一个用户友好的系统，使人们能够更快地验证法学硕士的答案。借助这个名为 SymGen 的工具，法学硕士可以生成带有引文的答案，这些引文直接指向源文档中的位置，例如数据库中的给定单元格。
用户将鼠标悬停在文本响应的突出显示部分上，即可查看模型用于生成特定单词或短语的数据。同时，未突出显示的部分会向用户显示哪些短语需要额外注意检查和验证。
“我们让人们能够有选择地关注他们需要更加关注的文本部分。最终，SymGen 可以让人们对模型的响应有更高的信心，因为他们可以轻松地仔细查看以确保信息得到验证，”电气工程和计算机科学研究生、SymGen 论文的共同主要作者 Shannon Shen 说道，该论文发表在arXiv预印本服务器上。
通过一项用户研究，Shen 和他的同事发现，与手动程序相比，SymGen 将验证时间缩短了约 20%。通过让人类更快、更轻松地验证模型输出，SymGen 可以帮助人们识别部署在各种现实情况下的 LLM 中的错误，从生成临床记录到总结金融市场报告。
与 Shen 一起参与撰写这篇论文的还有共同第一作者、EECS 研究生 Lucas Torroba Hennigen；EECS 研究生 Aniruddha “Ani” Nrusimha；Good Data Initiative 总裁 Bernhard Gapp；以及资深作者 David Sontag，EECS 教授、麻省理工学院 Jameel 诊所成员、计算机科学与人工智能实验室 (CSAIL) 临床机器学习小组负责人；以及 EECS 助理教授、CSAIL 成员 Yoon Kim。这项研究最近在语言建模会议上进行了展示。
符号引用
为了帮助验证，许多法学硕士课程都设计为生成引文，这些引文指向外部文档，并附有基于语言的回复，以便用户进行检查。然而，这些验证系统通常是事后才设计出来的，没有考虑到人们筛选大量引文所需要付出的努力，沈说。
“生成式人工智能旨在减少用户完成任务的时间。如果你需要花费数小时阅读所有这些文档来验证模型是否说得合理，那么在实践中进行生成式人工智能就没什么帮助了，”沈说。
研究人员从从事这项工作的人的角度来研究验证问题。
SymGen 用户首先向 LLM 提供其可以在响应中引用的数据，例如包含篮球比赛统计数据的表格。然后，研究人员不会立即要求模型完成任务（例如根据这些数据生成比赛摘要），而是执行一个中间步骤。他们提示模型以符号形式生成响应。
使用此提示，每当模型想要在其响应中引用单词时，它都必须从包含其引用信息的数据表中写入特定单元格。例如，如果模型想要在其响应中引用短语“波特兰开拓者”，它会将该文本替换为数据表中包含这些单词的单元格名称。
“因为我们有这个中间步骤，将文本转换为符号格式，所以我们能够获得非常细粒度的引用。我们可以说，对于输出中的每个文本跨度，它都与数据中的确切位置相对应，”Hennigen 说。
然后，SymGen 使用基于规则的工具解析每个引用，该工具将相应的文本从数据表复制到模型的响应中。
“这样，我们就知道这是一个逐字逐句的复制，所以我们知道与实际数据变量相对应的文本部分不会出现任何错误，”沈补充道。
简化验证
由于训练方式的原因，该模型可以创建符号响应。大型语言模型从互联网获取大量数据，部分数据以“占位符格式”记录，其中代码代替实际值。
当 SymGen 提示模型生成符号响应时，它使用类似的结构。“我们以特定的方式设计提示，以利用 LLM 的功能，”Shen 补充道。
在用户研究中，大多数参与者表示 SymGen 使验证 LLM 生成的文本变得更容易。与使用标准方法相比，他们可以快 20% 左右验证模型的响应。
然而，SymGen 受到源数据质量的限制。LLM 可能会引用错误的变量，而人工验证者可能对此一无所知。此外，用户必须拥有结构化格式（如表格）的源数据才能输入 SymGen。目前，该系统仅适用于表格数据。
展望未来，研究人员正在增强 SymGen，使其能够处理任意文本和其他形式的数据。例如，借助此功能，它可以帮助验证 AI 生成的法律文件摘要的部分内容。他们还计划与医生一起测试 SymGen，以研究它如何识别 AI 生成的临床摘要中的错误。

账号		自动登录	找回密码
密码			立即注册