语言代理帮助大型语言模型更好、更便宜地“思考”
日益占领科技界的大型语言模型在很多方面并不“便宜”。最著名的法学硕士(如 GPT-4)的建立花费了大约 1 亿美元,包括访问训练数据的法律成本、数十亿或数万亿参数的计算能力成本、计算所需的能源和水,以及开发训练算法的许多程序员,这些算法必须循环运行,以便机器能够“学习”。但是,如果研究人员需要完成一项机器可以更高效完成的专门任务,而他们又无法接触到提供生成式人工智能工具的大型机构,那么还有哪些其他选择呢?比如,一位家长想让孩子为一场艰难的考试做好准备,需要展示许多如何解决复杂数学问题的例子。
对于上述成本而言,建立自己的 LLM 是一个繁重的前景,而直接使用 GPT-4 和 Llama 3.1 这样的大型模型可能并不适合他们的任务所需的复杂逻辑和数学推理。
如果有一款更具成本效益的大型语言模型思考器可供大众使用,即生成式人工智能的通用品牌,那将会有所帮助。
华盛顿大学圣路易斯分校的研究人员决定通过构建一个自主代理来指导大型语言模型的推理过程,以应对这一挑战。根据计算机科学与工程系助理教授王晨光实验室与加州大学伯克利分校教授 Dawn Song 合作开展的研究,该代理为每个任务生成一组指令,这些指令对于改进所有任务实例中不同 LLM 的推理过程非常有效。
研究人员包括华盛顿大学博士生 Nicholas Crispino、Kyle Montgomery 和研究分析师 Fankun Zeng,他们在最近的机器学习会议上展示了他们的研究成果。这项研究成果也可在arXiv预印本服务器上找到。
Crispino 表示,这个“代理”是一个大型的 LLM,可作为思考来自网络的指令的工具。只要提供数据集名称等基本任务信息和一些仅供输入的示例,代理便会为任务生成高质量的分步指令。
这些指令指导小型 LLM 在某些任务上的推理。这是进行生成 AI 的一种更经济的方式,因为它们只需要对每个数据集使用一次大型 LLM,然后将指令交给可以接管的小型 LLM。
“我们可以使用昂贵的模型一次,并制定这些很好的指令来指导更便宜的模型的推理或思考过程,”克里斯皮诺说。
蒙哥马利补充道:“我们的方法大大提高了最先进的大型语言模型的性能。”
他们在语言处理任务上测试了一种名为 Zero-Shot AgentInstruct 的经济高效的方法,并使用 LLM Vicuna-13b、Llama-2-70b-chat 和 GPT-3.5 Turbo 将其性能与零样本提示方法进行了比较。
与通过添加提示“让我们一步一步思考”来实现的“零样本思路链”提示相比,零样本 AgentInstruct 在 29 个数据集(包括 53 个子集)上评估的各种任务中表现出更好的性能。
王说:“我们在思维和推理方面的进步是惊人的,特别是在数学和逻辑方面。”
本质上,他们利用强大的 LLM 模型将任务提炼为另一个模型的逐步推理路径,就像一位经验丰富的老师与学生分享他们的知识一样。
克里斯皮诺说:“我们正在观察,在无需训练的情况下,利用大型模型可以将小型模型的推理能力提升到何种程度。”
页:
[1]