找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 11|回复: 0

对人工智能系统进行数学难题测试表明,它们的表现仍然很差

[复制链接]

2733

主题

0

回帖

5466

积分

管理员

积分
5466
发表于 4 天前 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
一支由来自美国和英国多家机构的人工智能研究人员和数学家组成的团队开发了一个数学基准,让科学家可以测试人工智能系统解决极其困难的数学问题的能力。他们的论文发布在arXiv预印本服务器上。
过去几年,ChatGPT 等法学硕士项目变得越来越复杂,因此有时看起来智力水平很高。但有一个领域他们有所欠缺——解决数学难题。
随着人工智能系统开发人员努力提高其模型的数学技能,他们开发了基准作为测试其进展的手段。其中最受欢迎的两个是 MATH 和 GSM8K。随着时间的推移,一些法学硕士的成绩有所提高,他们能够在这些测试中取得高达 90% 的分数。但是,正如这项新工作的团队所指出的那样,此类基准的难度并没有那么高。他们决定需要一个新的基准,因此他们创建了一个名为FrontierMath 的基准。
首先,研究团队深入研究了数学世界,联系了该领域一些最聪明的人。他们请这些人提供一些真正困难的数学问题,并得到了数百份回复。研究人员指出,这些问题不仅独一无二(以前从未发表过),而且还需要对数学有深入的理解。有些问题需要人类花几天时间才能解决。
他们的研究范围也非常广泛,从数论到代数几何。由于研究范围如此之广,蛮力计算是行不通的。有根据的猜测也不行。要想在 FrontierMath基准测试中取得好成绩,人工智能系统必须具备创造力、洞察力以及研究团队所说的“深厚的领域专业知识”。
到目前为止的测试已经证明了 FrontierMath 的难度。在传统基准测试中得分较高的人工智能得分最高也不超过 2%。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-17 01:29 , Processed in 0.025751 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表