人工智能挑战赛寻求测试人类智能水平的问题

Josiah02 发表于 2024-10-8 16:34:36

旧金山两家人工智能领域的领军企业向公众发起挑战，要求他们提出能够测试大型语言模型 (LLM)（如 Google Gemini 和 OpenAI 的 o1）能力的问题。Scale AI 专门准备用于训练 LLM 的大量数据，它与人工智能安全中心 (CAIS) 合作推出了这项名为“人类的最后考试”的计划。
Scale 和 CAIS 表示，此次比赛将为那些提出 50 个最佳测试问题的人提供 5,000 美元（3,800 英镑）的奖金，目的是测试我们距离使用“历史上最大、最广泛的专家联盟”实现“专家级人工智能系统”还有多远。
为什么要这样做？顶尖的法学硕士已经在智力、数学和法律等许多既定测试中取得优异成绩，但很难确定这有多大意义。在许多情况下，他们可能已经预先学习了答案，因为他们接受的训练是基于海量的数据，包括互联网上所有内容的很大一部分。
数据是整个领域的基础。它推动了从传统计算到人工智能的范式转变，从“告诉”机器到“展示”机器该做什么。这需要良好的训练数据集，也需要良好的测试。开发人员通常使用尚未用于训练的数据（行话中称为“测试数据集”）来做到这一点。
如果法学硕士还不能预先学习律师资格考试等既定考试的答案，他们可能很快就会做到。人工智能分析网站Epoch 估计，到 2028 年，人工智能将有效地阅读人类所写的一切。同样重要的挑战是，一旦跨越了这一界限，如何继续评估人工智能。
当然，互联网一直在不断扩展，每天都会增加数百万个新项目。这能解决这些问题吗？
或许如此，但这又会引发另一个隐患，即“模型崩溃”。随着互联网上越来越多地充斥着人工智能生成的材料，这些材料会重新循环到未来的人工智能训练集中，这可能会导致人工智能的表现越来越差。为了解决这个问题，许多开发人员已经开始从他们的人工智能与人类的互动中收集数据，并添加新数据进行训练和测试。
一些专家认为，人工智能也需要“具身化”：像人类一样在现实世界中移动并获得自己的经验。这听起来可能有些牵强，但如果你意识到特斯拉多年来一直在其汽车上这样做的话，你就会明白这一点。另一个机会是人类可穿戴设备，例如 Meta 的流行雷朋智能眼镜。这些眼镜配备了摄像头和麦克风，可用于收集大量以人为中心的视频和音频数据。
缩小测试范围
然而，即使这类产品未来能保证有足够的训练数据，如何定义和衡量智能（尤其是通用人工智能（AGI）即等于或超越人类智能的人工智能）仍然是一个难题。
传统的人类智商测试长期以来一直存在争议，因为未能捕捉智力的多面性，涵盖了从语言到数学、从同理心到方向感等一切方面。
针对人工智能的测试也存在类似的问题。目前已有许多成熟的测试，涵盖总结文本、理解文本、从信息中得出正确推论、识别人体姿势和手势以及机器视觉等任务。
一些测试正在被淘汰，通常是因为人工智能在这些测试中表现得非常好，但这些测试过于具体，以至于只能作为非常狭隘的智力衡量标准。例如，国际象棋人工智能Stockfish在Elo评分系统上远远领先于有史以来得分最高的人类棋手马格努斯·卡尔森。然而 Stockfish 无法完成其他任务，例如理解语言。显然，将其国际象棋能力与更广泛的智能混为一谈是错误的。
但随着人工智能现在表现出更广泛的智能行为，挑战在于设计新的基准来比较和衡量它们的进步。法国谷歌工程师 François Chollet 提出了一种值得注意的方法。他认为，真正的智能在于能够适应和将学习推广到新的、从未见过的情况。2019 年，他提出了“抽象和推理语料库”（ARC），这是一组以简单视觉网格形式呈现的谜题，旨在测试人工智能推断和应用抽象规则的能力。
以前的基准测试通过用数百万张图片训练 AI 来测试视觉物体识别能力，每张图片都包含物体的信息，而 ARC 则不同，它事先只给 AI 提供最少的示例。AI 必须弄清楚谜题逻辑，而不能只学习所有可能的答案。
尽管 ARC 测试对于人类来说并不是特别难解决，但第一个得分达到 85% 的 AI 系统将获得 60 万美元的奖金。在撰写本文时，我们距离这一目标还很远。最近两个领先的 LLM，OpenAI 的 o1 预览版和 Anthropic 的 Sonnet 3.5，在 ARC 公共排行榜（称为ARC-AGI-Pub ）上的得分均为21% 。
最近使用 OpenAI 的 GPT-4o 进行的另一次尝试得分为 50%，但引起了一些争议，因为该方法在选择最佳测试答案之前会生成数千种可能的解决方案。即便如此，这仍然远远不能达到获奖水平——或者与人类超过 90%的表现相匹配。
虽然 ARC 仍然是当今测试人工智能是否具有真正智能的最可靠尝试之一，但 Scale/CAIS 计划表明，寻找令人信服的替代方案仍在继续。（有趣的是，我们可能永远看不到一些获奖问题。它们不会在互联网上发布，以确保人工智能无法偷看试卷。）
我们需要知道机器何时才能接近人类水平的推理能力，以及由此引发的所有安全、伦理和道德问题。到那时，我们可能将面临一个更难的考试问题：如何测试超级智能。这是一项更令人费解的任务，我们需要弄清楚。

页: [1]

NewCET's Archiver

人工智能挑战赛寻求测试人类智能水平的问题