先进的人工智能能够解决视觉难题并进行抽象推理吗？

Josiah02 · 发表于 2024-10-11 16:32:09

人工智能已经学会了掌握语言、创作艺术，甚至在国际象棋比赛中击败了大师。但它能破解抽象推理的密码吗？这些棘手的视觉谜题让人类摸不着头脑。
南加州大学维特比工程学院信息科学研究所 (ISI) 的研究人员正在测试 AI 的认知能力，推动多模态大型语言模型 (MLLM) 解决曾经只用于人类智商测试的视觉问题。结果如何？让我们一窥 AI 已经走了多远——以及它还有哪些不足。
USC Viterbi ISI研究助理Kian Ahrabian和Zhivar Sourati最近调查了MLLM是否可以执行非语言抽象推理，需要视觉感知和逻辑推理的任务，并在PA Filadelphia（ COLM 2024 ）会议上介绍了他们的发现（COLM 2024），在PA，PA，10月7-9日，2024年10月7-9日。
USC Viterbi工程学院的计算机科学研究副教授Jay Pujara，论文的作者说：“每天我们都会轰炸有关AI（并且不能）所做的事情的新头条，这通常是非常令人惊讶的。我们仍然对新的AI做出了如此有限的了解，直到我们无法理解这些限制，我们无法在某些情况下填补AI的限制，这使AI填补了AI的效果，并且可以使AIF填写，这是一个更有用的东西。
挑战：人工智能能够看见并思考吗？
Ahrabian 解释道：“我们想看看这种能够处理图像的新一代大型模型是否能够自行推理。例如，如果你看到一个黄色圆圈变成了一个蓝色三角形，那么模型是否可以在不同的场景中应用相同的模式？”
为了回答这个问题，该团队测试了 24 种不同的 MLLM，以解决基于 Raven 渐进矩阵的难题，Raven 渐进矩阵是一种著名的抽象推理测试。他们发现开源模型表现不佳。“它们真的很糟糕。它们什么也得不到，”Ahrabian 坦率地说。
相比之下，闭源模型（例如 GPT-4V）表现更好，这些模型由私人公司开发，不公开提供修改。这些模型通常使用更先进的资源进行训练，包括更大的数据集和更强大的计算系统，这给它们带来了明显的优势。“我们在闭源模型中看到了一些不平凡的结果，”Ahrabian 补充道，“具体来说，GPT-4V 在推理方面相对较好，但远非完美。”
人工智能的不足之处
研究的关键部分涉及这些模型失败的地方。
为了隔离问题，研究人员提供了图像的详细文本描述，确保模型以不同的格式拥有所有必要的信息“即使我们删除了视觉元素并只给它们文本，许多模型仍然无法有效推理，”Sourati 解释说。
这揭示了一个关键的见解：问题不仅仅在于视觉处理，还在于推理本身。现在，团队对哪些地方出了问题有了更清晰的认识，这让他们能够调整重点并指导未来的改进。
前进的道路：提高人工智能的推理能力
研究人员探索的一种有希望的方法是“思维链提示”，即提示人工智能逐步完成推理任务。这种方法在某些情况下取得了显著的进步。“通过提示引导模型，我们能够看到性能提高高达 100%”，Ahrabian 指出。
尽管剩下的挑战是乐观的，随着这些模型的发展，研究的结果既凸显了当前的人工智能局限性，又突出了令人振奋的未来进步的可能性。

账号		自动登录	找回密码
密码			立即注册