Josiah02 发表于 2024-10-11 16:32:09

先进的人工智能能够解决视觉难题并进行抽象推理吗?

人工智能已经学会了掌握语言、创作艺术,甚至在国际象棋比赛中击败了大师。但它能破解抽象推理的密码吗?这些棘手的视觉谜题让人类摸不着头脑。
南加州大学维特比工程学院信息科学研究所 (ISI) 的研究人员正在测试 AI 的认知能力,推动多模态大型语言模型 (MLLM) 解决曾经只用于人类智商测试的视觉问题。结果如何?让我们一窥 AI 已经走了多远——以及它还有哪些不足。
USC Viterbi ISI研究助理Kian Ahrabian和Zhivar Sourati最近调查了MLLM是否可以执行非语言抽象推理,需要视觉感知和逻辑推理的任务,并在PA Filadelphia( COLM 2024 )会议上介绍了他们的发现(COLM 2024),在PA,PA,10月7-9日,2024年10月7-9日。
USC Viterbi工程学院的计算机科学研究副教授Jay Pujara,论文的作者说:“每天我们都会轰炸有关AI(并且不能)所做的事情的新头条,这通常是非常令人惊讶的。我们仍然对新的AI做出了如此有限的了解,直到我们无法理解这些限制,我们无法在某些情况下填补AI的限制,这使AI填补了AI的效果,并且可以使AIF填写,这是一个更有用的东西。
挑战:人工智能能够看见并思考吗?
Ahrabian 解释道:“我们想看看这种能够处理图像的新一代大型模型是否能够自行推理。例如,如果你看到一个黄色圆圈变成了一个蓝色三角形,那么模型是否可以在不同的场景中应用相同的模式?”
为了回答这个问题,该团队测试了 24 种不同的 MLLM,以解决基于 Raven 渐进矩阵的难题,Raven 渐进矩阵是一种著名的抽象推理测试。他们发现开源模型表现不佳。“它们真的很糟糕。它们什么也得不到,”Ahrabian 坦率地说。
相比之下,闭源模型(例如 GPT-4V)表现更好,这些模型由私人公司开发,不公开提供修改。这些模型通常使用更先进的资源进行训练,包括更大的数据集和更强大的计算系统,这给它们带来了明显的优势。“我们在闭源模型中看到了一些不平凡的结果,”Ahrabian 补充道,“具体来说,GPT-4V 在推理方面相对较好,但远非完美。”
人工智能的不足之处
研究的关键部分涉及这些模型失败的地方。
为了隔离问题,研究人员提供了图像的详细文本描述,确保模型以不同的格式拥有所有必要的信息“即使我们删除了视觉元素并只给它们文本,许多模型仍然无法有效推理,”Sourati 解释说。
这揭示了一个关键的见解:问题不仅仅在于视觉处理,还在于推理本身。现在,团队对哪些地方出了问题有了更清晰的认识,这让他们能够调整重点并指导未来的改进。
前进的道路:提高人工智能的推理能力
研究人员探索的一种有希望的方法是“思维链提示”,即提示人工智能逐步完成推理任务。这种方法在某些情况下取得了显著的进步。“通过提示引导模型,我们能够看到性能提高高达 100%”,Ahrabian 指出。
尽管剩下的挑战是乐观的,随着这些模型的发展,研究的结果既凸显了当前的人工智能局限性,又突出了令人振奋的未来进步的可能性。

页: [1]
查看完整版本: 先进的人工智能能够解决视觉难题并进行抽象推理吗?