语言模型的视觉能力缺乏深度

Josiah02 · 发表于 2024-7-15 08:31:31

　　美国奥本大学的三位计算机科学家与加拿大阿尔伯塔大学的一位同事合作发现，具有视觉能力的大型语言模型 (LLM) (VLM) 所声称的视觉技能可能夸大了其能力。
　　Pooyan Rahmanzadehgervi、Logan Bolton、Anh Totti Nguyen 和 Mohammad Reza Taesiri 对四种最流行的 VLM（GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet 和 Claude-3.5 Sonnet）的视觉能力进行了测试。该研究已发布到arXiv预印本服务器。
　　在过去一年中，大型语言模型不断发展，新增功能不断涌现，例如接受视觉输入的能力。但这些能力引发了有关视觉能力本质的疑问。
　　与动物一样，任何人类的视觉系统都必须有两个主要组成部分：一个摄像头和一个大脑，用于处理摄像头捕捉到的内容。在这项新研究中，研究人员发现，虽然用于捕捉视觉效果的摄像头可能已经高度发达，但其产生的数据处理仍处于早期阶段。
　　让语言模型识别泰姬陵等建筑物是一回事，而让其回答图像中事物的性质问题则是另一回事。例如，让语言模型告诉你泰姬陵前有多少个孩子手牵着手，这是很棘手的，因为语言模型还没有学会数数——它学会了识别手牵着手之类的动作。
　　因此，除非向它展示与图片中相同数量的手拉手的儿童的图像，否则它将无法给出正确答案。
　　研究人员通过要求四位热门法学硕士做一些对于人类来说非常简单的事情来证明这种处理能力的缺乏，比如计算图片中有多少个圆圈重叠或有多少个环相互连接。
　　不出所料，四名法学硕士的表现都很差——他们只有在用熟悉的图片进行训练时才能表现良好。例如，当环的数量超过五个时，他们很难判断环之间有多少个是相连的，因为除了奥运五环以外，他们没有见过这样的例子。
　　该团队在这方面的工作表明，大型语言模型还有很长的路要走才能像人类一样处理视觉信息。

账号		自动登录	找回密码
密码			立即注册