AI 研究员探讨新版 ChatGPT 在数学和推理方面的进步
9 月 12 日,OpenAI宣布了一款新的 ChatGPT 模型,该公司表示,该模型在数学和科学方面的表现比之前的版本好得多,之前的版本在推理方面表现不佳。早期的模型在国际数学奥林匹克(高中数学顶级竞赛)资格考试中只获得了 13% 的分数。新模型名为“o1”,将这一分数提高到了 83%。Niloofar Mireshghallah 是华盛顿大学保罗·艾伦计算机科学与工程学院的博士后学者,研究大型语言模型(如 ChatGPT)的隐私和社会影响。
UW News 与她讨论了为何数学和推理对这些人工智能模型提出如此大的挑战,以及公众应该了解 OpenAI 的新产品。
ChatGPT 和其他 LLM 的工作原理是预测下一个单词的流畅度。为什么数学和推理对 LLM 来说如此困难?
主要有两个原因。一是模型进行下一个单词预测时很难“找出”规则和原理。你需要反复推导才能完成数学运算。至于更合乎逻辑或常识的推理,另一个困难的原因是,正如我的导师 Yejin Choi 所说,常识就像暗物质。它就在那里,但我们看不到它,也说不出来。
我们知道冰箱门不应该敞开,但很少有文字说明这一点。如果没有文字说明,模型就不会识别它。社会规范或其他形式的推理也是如此!
OpenAI 首席科学家 Jakub Pachocki 告诉《纽约时报》:“这个模型可以慢慢来。它可以用英语思考问题,并尝试分解问题,寻找角度以提供最佳答案。”这是一个巨大的转变吗?这个新模型是否更接近“思考”?
整个“慢慢来”是对正在发生的事情的简化,我们称之为“测试时间计算”。到目前为止,大公司会通过评估模型和训练数据来扩展模型。但这些公司可能已经达到了饱和状态——因为没有更多的预训练数据,评估模型可能对我们没什么帮助。
这种对测试时间的投入有助于模型进行内部推理,因此它可以尝试分解问题并进行多次迭代。这被称为思维链推理,就像在数学问题中展示你的工作一样,但适用于语言和思维任务。人工智能不只是给出最终答案,而是一步一步地工作,写下推理过程的每一步。
想象一下,你被要求解决一个文字问题:“如果莎莉有 3 个苹果,并将 2 个给了她的朋友,那么她还剩下多少个?”正常的人工智能回答可能只是“1 个苹果”。
但按照思路链推理,它看起来会更像这样:
莎莉一开始有 3 个苹果
她送出了 2 个苹果
为了找出剩余数量,我们减去:3-2 = 1
因此,莎莉还剩下 1 个苹果
这个循序渐进的过程有几个好处:它使人工智能的推理更加透明,因此我们可以看到它是如何得出答案的,并且在出现错误的情况下,有可能发现问题所在。
思路链推理对于更复杂的任务特别有用,例如回答多步骤问题、解决数学问题或分析需要几个逻辑步骤的情况。
从某种意义上说,模型可以测试自己的反应,而不是仅仅预测下一个单词。之前的一个问题是,如果模型预测了一个错误的单词,它就不得不做出承诺,但它会偏离轨道,因为它接下来的所有预测都部分基于这个错误的预测。
这种思路链式推理和反应生成方式是迄今为止我们掌握的最接近人类思维的程序。我们并不完全确定这种内部推理是如何运作的,但现在模型可以花时间测试自己的反应了。
研究人员已经证明,当提供多个选择时,模型会发现自己的错误,并对自己的回答进行排序。例如,在最近的一篇论文[发布到arXiv预印本服务器] 中,我们表明 LLM 在生成回答时会破坏生日惊喜,但当被问及他们的回答是否合适时,他们会意识到错误。因此,这种自我测试可以帮助模型得出更合乎逻辑的回答。
当公司宣布这样的新 AI 模型时,人们应该了解和注意什么?
我认为人们应该注意的一件事是,仍然要对模型输出进行事实核查,不要被模型的“思考”和花时间所欺骗。是的,我们得到了更好的回应,但仍然存在失败模式。
页:
[1]