Josiah02 发表于 3 天前

对人工智能系统进行数学难题测试表明,它们的表现仍然很差

一支由来自美国和英国多家机构的人工智能研究人员和数学家组成的团队开发了一个数学基准,让科学家可以测试人工智能系统解决极其困难的数学问题的能力。他们的论文发布在arXiv预印本服务器上。
过去几年,ChatGPT 等法学硕士项目变得越来越复杂,因此有时看起来智力水平很高。但有一个领域他们有所欠缺——解决数学难题。
随着人工智能系统开发人员努力提高其模型的数学技能,他们开发了基准作为测试其进展的手段。其中最受欢迎的两个是 MATH 和 GSM8K。随着时间的推移,一些法学硕士的成绩有所提高,他们能够在这些测试中取得高达 90% 的分数。但是,正如这项新工作的团队所指出的那样,此类基准的难度并没有那么高。他们决定需要一个新的基准,因此他们创建了一个名为FrontierMath 的基准。
首先,研究团队深入研究了数学世界,联系了该领域一些最聪明的人。他们请这些人提供一些真正困难的数学问题,并得到了数百份回复。研究人员指出,这些问题不仅独一无二(以前从未发表过),而且还需要对数学有深入的理解。有些问题需要人类花几天时间才能解决。
他们的研究范围也非常广泛,从数论到代数几何。由于研究范围如此之广,蛮力计算是行不通的。有根据的猜测也不行。要想在 FrontierMath基准测试中取得好成绩,人工智能系统必须具备创造力、洞察力以及研究团队所说的“深厚的领域专业知识”。
到目前为止的测试已经证明了 FrontierMath 的难度。在传统基准测试中得分较高的人工智能得分最高也不超过 2%。

页: [1]
查看完整版本: 对人工智能系统进行数学难题测试表明,它们的表现仍然很差