找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 9|回复: 0

新算法有助于加强 LLM 协作,以获得更智能、更高效的解决方案

[复制链接]

1744

主题

0

回帖

3488

积分

管理员

积分
3488
发表于 2024-9-19 12:23:03 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
您是否曾经被问过一个您只知道部分答案的问题?为了给出更明智的答案,您最好的做法是给更了解这个问题的朋友打电话。
这种协作过程还可以帮助大型语言模型(LLM) 提高其准确性。尽管如此,教会 LLM 识别何时应该与另一个模型协作回答问题一直很困难。麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员设想了一种更有机的方法,而不是使用复杂的公式或大量标记数据来说明模型应该在哪里协同工作。
他们的新算法名为“Co-LLM”,可以将通用基础 LLM 与更专业的模型配对,并帮助它们协同工作。当前者制作答案时,Co-LLM 会检查其答案中的每个单词(或标记),以查看在哪里可以调用专家模型的更准确答案。此过程可以更准确地回答医疗提示、数学和推理问题等问题。由于每次迭代都不需要专家模型,因此这也可以使响应生成更有效率。
为了确定基础模型何时需要专家模型的帮助,该框架使用机器学习来训练“切换变量”,或一种可以指示两个 LLM 答案中每个单词的能力的工具。切换就像项目经理一样,找到应该请专家来帮忙的领域。
例如,如果你要求副法学硕士列举一些已灭绝的熊类物种的例子,两个模型会一起起草答案。通用法学硕士开始整理答复,切换变量会介入专家模型中可以插入更好标记的部分,例如添加熊类物种灭绝的年份。
“通过 Co-LLM,我们实际上是在训练一个通用的 LLM,以便在需要时‘呼叫’专家模型,”麻省理工学院电气工程和计算机科学博士生、CSAIL 附属机构 Shannon Shen 说道,他是有关该方法的新论文的主要作者。研究结果发表在arXiv预印本服务器上。
“我们使用特定领域的数据来向基础模型传授其对应方在生物医学任务、数学和推理问题等领域的专业知识。这个过程会自动找到基础模型难以生成的数据部分,然后指示基础模型切换到专家 LLM,该 LLM 已在类似领域的数据上进行了预训练。通用模型提供“脚手架”生成,当它调用专门的 LLM 时,它会提示专家生成所需的标记。我们的研究结果表明,LLM 会有机地学习协作模式,类似于人类如何识别何时需要请专家来填补空白。”
灵活性与实用性的结合
想象一下,让一个通用的 LLM 说出一种处方药的成分。它可能会回答错误,因此需要借助专门模型的专业知识。
为了展示 Co-LLM 的灵活性,研究人员使用BioASQ医疗集等数据将基础 LLM 与不同领域的专家 LLM(如Meditron 模型)相结合,该模型在未标记的医疗数据上进行了预训练。这使得该算法能够帮助回答生物医学专家通常会收到的询问,例如命名导致特定疾病的机制。
例如,如果你单独要求一个简单的 LLM 说出某种处方药的成分,它可能会回答错误。借助专门研究生物医学数据的模型,你会得到更准确的答案。Co-LLM 还会提醒用户在哪里仔细检查答案。
Co-LLM 性能提升的另一个例子是:当被要求解决“a 3 · a 2 if a=5”这样的数学问题时,通用模型错误地将答案计算为 125。当 Co-LLM 训练模型与名为 Llemma 的大型数学 LLM 进行更多合作时,他们共同确定了正确的解决方案是 3,125。
与微调的简单 LLM 和独立工作的未调整的专用模型相比,Co-LLM 给出的答复更准确。Co-LLM 可以引导两个经过不同训练的模型协同工作,而其他有效的 LLM 协作方法(例如“代理调整”)则需要所有组件模型都经过类似的训练。此外,此基准要求同时使用每个模型来生成答案,而麻省理工学院的算法只是针对特定标记激活其专家模型,从而实现更高效的生成。
何时咨询专家
麻省理工学院研究人员的算法强调,更紧密地模仿人类团队合作可以提高多 LLM 协作的准确性。为了进一步提高其事实准确性,该团队可能会借鉴人类的自我纠正:他们正在考虑一种更强大的延迟方法,当专家模型没有给出正确的响应时可以回溯。这种升级将允许 Co-LLM 进行路线纠正,以便算法仍然可以给出令人满意的答复。
该团队还希望在有新信息可用时更新专家模型(通过仅训练基础模型),尽可能保持答案的最新性。这将允许 Co-LLM 将最新的信息与强大的推理能力相结合。最终,该模型可以帮助处理企业文档,使用其拥有的最新信息对其进行相应的更新。Co-LLM 还可以训练小型私有模型,与更强大的 LLM 配合使用,以改进必须保留在服务器中的文档。
多伦多大学副教授、矢量研究所副研究主任科林·拉菲尔 (Colin Raffel) 表示:“Co-LLM 提出了一种有趣的方法,可以学习如何在两种模型之间进行选择,以提高效率和性能。”他没有参与这项研究。
“由于路由决策是在 token 级别做出的,Co-LLM 提供了一种将困难的生成步骤推迟到更强大的模型的精细方法。模型 token 级别路由的独特组合还提供了类似方法所缺乏的极大灵活性。Co-LLM 为一项重要的工作做出了贡献,该工作旨在开发专门模型的生态系统,以超越昂贵的单片 AI 系统。”

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-9-29 00:23 , Processed in 0.118900 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表