人工智能挑战赛寻求测试人类智能水平的问题
旧金山两家人工智能领域的领军企业向公众发起挑战,要求他们提出能够测试大型语言模型 (LLM)(如 Google Gemini 和 OpenAI 的 o1)能力的问题。Scale AI 专门准备用于训练 LLM 的大量数据,它与人工智能安全中心 (CAIS) 合作推出了这项名为“人类的最后考试”的计划。Scale 和 CAIS 表示,此次比赛将为那些提出 50 个最佳测试问题的人提供 5,000 美元(3,800 英镑)的奖金,目的是测试我们距离使用“历史上最大、最广泛的专家联盟”实现“专家级人工智能系统”还有多远。
为什么要这样做?顶尖的法学硕士已经在智力、数学和法律等许多既定测试中取得优异成绩,但很难确定这有多大意义。在许多情况下,他们可能已经预先学习了答案,因为他们接受的训练是基于海量的数据,包括互联网上所有内容的很大一部分。
数据是整个领域的基础。它推动了从传统计算到人工智能的范式转变,从“告诉”机器到“展示”机器该做什么。这需要良好的训练数据集,也需要良好的测试。开发人员通常使用尚未用于训练的数据(行话中称为“测试数据集”)来做到这一点。
如果法学硕士还不能预先学习律师资格考试等既定考试的答案,他们可能很快就会做到。人工智能分析网站Epoch 估计,到 2028 年,人工智能将有效地阅读人类所写的一切。同样重要的挑战是,一旦跨越了这一界限,如何继续评估人工智能。
当然,互联网一直在不断扩展,每天都会增加数百万个新项目。这能解决这些问题吗?
或许如此,但这又会引发另一个隐患,即“模型崩溃”。随着互联网上越来越多地充斥着人工智能生成的材料,这些材料会重新循环到未来的人工智能训练集中,这可能会导致人工智能的表现越来越差。为了解决这个问题,许多开发人员已经开始从他们的人工智能与人类的互动中收集数据,并添加新数据进行训练和测试。
一些专家认为,人工智能也需要“具身化”:像人类一样在现实世界中移动并获得自己的经验。这听起来可能有些牵强,但如果你意识到特斯拉多年来一直在其汽车上这样做的话,你就会明白这一点。另一个机会是人类可穿戴设备,例如 Meta 的流行雷朋智能眼镜。这些眼镜配备了摄像头和麦克风,可用于收集大量以人为中心的视频和音频数据。
缩小测试范围
然而,即使这类产品未来能保证有足够的训练数据,如何定义和衡量智能(尤其是通用人工智能(AGI)即等于或超越人类智能的人工智能)仍然是一个难题。
传统的人类智商测试长期以来一直存在争议,因为未能捕捉智力的多面性,涵盖了从语言到数学、从同理心到方向感等一切方面。
针对人工智能的测试也存在类似的问题。目前已有许多成熟的测试,涵盖总结文本、理解文本、从信息中得出正确推论、识别人体姿势和手势以及机器视觉等任务。
一些测试正在被淘汰,通常是因为人工智能在这些测试中表现得非常好,但这些测试过于具体,以至于只能作为非常狭隘的智力衡量标准。例如,国际象棋人工智能Stockfish在Elo评分系统上远远领先于有史以来得分最高的人类棋手马格努斯·卡尔森。然而 Stockfish 无法完成其他任务,例如理解语言。显然,将其国际象棋能力与更广泛的智能混为一谈是错误的。
但随着人工智能现在表现出更广泛的智能行为,挑战在于设计新的基准来比较和衡量它们的进步。法国谷歌工程师 François Chollet 提出了一种值得注意的方法。他认为,真正的智能在于能够适应和将学习推广到新的、从未见过的情况。2019 年,他提出了“抽象和推理语料库”(ARC),这是一组以简单视觉网格形式呈现的谜题,旨在测试人工智能推断和应用抽象规则的能力。
以前的基准测试通过用数百万张图片训练 AI 来测试视觉物体识别能力,每张图片都包含物体的信息,而 ARC 则不同,它事先只给 AI 提供最少的示例。AI 必须弄清楚谜题逻辑,而不能只学习所有可能的答案。
尽管 ARC 测试对于人类来说并不是特别难解决,但第一个得分达到 85% 的 AI 系统将获得 60 万美元的奖金。在撰写本文时,我们距离这一目标还很远。最近两个领先的 LLM,OpenAI 的 o1 预览版和 Anthropic 的 Sonnet 3.5,在 ARC 公共排行榜(称为ARC-AGI-Pub )上的得分均为21% 。
最近使用 OpenAI 的 GPT-4o 进行的另一次尝试得分为 50%,但引起了一些争议,因为该方法在选择最佳测试答案之前会生成数千种可能的解决方案。即便如此,这仍然远远不能达到获奖水平——或者与人类超过 90%的表现相匹配。
虽然 ARC 仍然是当今测试人工智能是否具有真正智能的最可靠尝试之一,但 Scale/CAIS 计划表明,寻找令人信服的替代方案仍在继续。(有趣的是,我们可能永远看不到一些获奖问题。它们不会在互联网上发布,以确保人工智能无法偷看试卷。)
我们需要知道机器何时才能接近人类水平的推理能力,以及由此引发的所有安全、伦理和道德问题。到那时,我们可能将面临一个更难的考试问题:如何测试超级智能。这是一项更令人费解的任务,我们需要弄清楚。
页:
[1]