OpenAI 推出基准测试工具来衡量人工智能代理的机器学习工程性能

Josiah02 发表于 2024-10-16 12:06:28

Open AI 的一个 AI 研究团队开发了一种工具，供 AI 开发人员用来衡量 AI 机器学习工程能力。该团队撰写了一篇论文，描述了他们的基准测试工具，并将其命名为 MLE-bench，并将其发布在arXiv预印本服务器上。该团队还在公司网站上发布了一个网页，介绍了这个开源新工具。
随着基于计算机的机器学习和相关人工智能应用在过去几年蓬勃发展，新型应用也开始受到测试。机器学习工程就是其中一种应用，其中人工智能用于解决工程思维问题、开展实验并生成新代码。
其目的是加快新发现的开发或找到旧问题的新解决方案，同时降低工程成本，从而以更快的速度生产新产品。
该领域的一些人甚至认为，某些类型的人工智能工程可能会导致人工智能系统在工程工作方面的表现优于人类，从而使人类在这一过程中的作用变得过时。该领域的其他人对未来版本的人工智能工具的安全性表示担忧，怀疑人工智能工程系统是否有可能发现人类不再需要。
OpenAI 的新基准测试工具并没有专门解决这些问题，但确实为开发旨在防止其中一种或两种结果的工具打开了大门。
新工具本质上是一系列测试——总共 75 个，全部来自 Kaggle 平台。测试包括要求新 AI 解决尽可能多的问题。所有问题都基于现实世界，例如要求系统破译古代卷轴或开发新型 mRNA 疫苗。
然后系统会审查结果，看看任务解决得如何，以及结果是否可以在现实世界中使用——然后给出分数。毫无疑问，这种测试的结果也将被 OpenAI 团队用作衡量人工智能研究进展的标准。
值得注意的是，MLE-bench 测试的是 AI 系统自主开展工程工作的能力，其中包括创新能力。为了提高 AI 系统在此类基准测试中的得分，接受测试的 AI 系统可能还必须从自己的工作中学习，其中可能包括 MLE-bench 上的结果。

页: [1]

NewCET's Archiver

OpenAI 推出基准测试工具来衡量人工智能代理的机器学习工程性能