找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 53|回复: 0

无人驾驶汽车仍缺乏常识。人工智能聊天机器人技术可能是答案

[复制链接]

2733

主题

0

回帖

5466

积分

管理员

积分
5466
发表于 2024-8-1 08:21:59 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
  在互联网上快速搜索一下,就会找到大量展示无人驾驶汽车事故的视频,这些视频经常会让人发笑。但为什么我们会觉得这些行为很有趣呢?可能是因为它们与人类司机处理类似情况的方式形成了鲜明的对比。
  在我们看来微不足道的日常情况仍可能对无人驾驶汽车构成重大挑战。这是因为它们的设计采用的工程方法与人类思维方式截然不同。然而,人工智能的最新进展开辟了新的可能性。
  具有语言功能的新型人工智能系统(例如 ChatGPT 等聊天机器人背后的技术)可能是让无人驾驶汽车推理和行为更像人类驾驶员的关键。
  2010 年代后期,随着深度神经网络 (DNN) 的出现,自动驾驶研究获得了巨大发展势头。深度神经网络是一种人工智能 (AI),其数据处理方式受到人脑的启发。深度神经网络能够处理交通场景图像和视频,以识别障碍物等“关键要素”。
  检测这些障碍物通常需要计算3D 框来确定障碍物的大小、方向和位置。例如,该过程适用于车辆、行人和骑自行车的人,它根据类别和空间属性(包括相对于无人驾驶汽车的距离和速度)创建世界表示。
  这是最广泛采用的自动驾驶工程方法的基础,称为“感知-思考-行动”。在这种方法中,传感器数据首先由 DNN 处理。然后使用传感器数据预测障碍物轨迹。最后,系统规划汽车的下一步行动。
  虽然这种方法具有易于调试等好处,但感知-思考-行动框架有一个关键的局限性:它与人类驾驶背后的大脑机制有着根本的不同。
  来自大脑的教训
  关于大脑功能的许多知识仍不为人所知,因此将人类大脑的直觉应用到无人驾驶汽车上是一项艰巨的任务。尽管如此,各种研究工作都旨在从神经科学、认知科学和心理学中汲取灵感,以改善自动驾驶。
  一个长期存在的理论认为,“感知”和“行动”不是连续的,而是紧密相关的过程。人类根据其对环境采取行动的能力来感知环境。
  例如,当准备在十字路口左转时,驾驶员会关注与转弯相关的特定环境部分和障碍物。相比之下,感知-思考-行动方法会独立于当前的行动意图来处理整个场景。
  与人类的另一个关键区别是,DNN 主要依赖于训练数据。当遇到场景稍微不寻常的变化时,它们可能会失败或错过重要信息。
  这种罕见、代表性不足的情况被称为“长尾案例”,是一个巨大的挑战。当前的解决方法是创建越来越大的训练数据集,但现实情况的复杂性和多变性使得不可能涵盖所有可能性。
  因此,数据驱动的方法(如感知-思考-行动)很难推广到未见过的情况。而人类则擅长处理新情况。
  凭借对世界的一般了解,我们能够使用“常识”来评估新场景:常识是实践知识、推理和对人们一般行为方式的直觉理解的结合,这些都源于一生的经验。
  事实上,驾驶对于人类而言是另一种形式的社交,常识是解读道路使用者(其他司机、行人、自行车骑行者)行为的关键。这种能力使我们能够在意外情况下做出合理的判断和决定。
  复制常识
  在过去十年中,在 DNN 中复制常识一直是一项重大挑战,促使学者们呼吁彻底改变方法。最近的人工智能进步终于提供了解决方案。
  大型语言模型 (LLM) 是 ChatGPT 等聊天机器人背后的技术,在理解和生成人类语言方面表现出了非凡的能力。它们令人印象深刻的能力源于对各个领域的大量信息的训练,这使它们能够发展出一种类似于我们的常识。
  最近,GPT-4o 和GPT-4o-mini等多模态 LLM(可以响应用户以文本、视觉和视频形式提出的请求)将语言与视觉相结合,将广泛的世界知识与推理视觉输入的能力融为一体。
  这些模型可以理解复杂的未知场景,提供自然语言解释并推荐适当的行动,为长尾问题提供有希望的解决方案。
  在机器人领域,视觉-语言-动作模型 (VLAM)正在兴起,它将语言和视觉处理与机器人的动作相结合。VLAM 在通过语言指令控制机械臂方面表现出令人印象深刻的早期成果。
  在自动驾驶领域,初步研究重点是使用多模态模型提供驾驶评论和运动规划决策解释。例如,一个模型可能会显示“我前面有一个骑自行车的人,开始减速”,这为决策过程提供了见解并提高了透明度。Wayve 公司在商业层面应用语言驱动的无人驾驶汽车方面已取得令人鼓舞的初步成果。
  驾驶的未来
  虽然 LLM 可以解决长尾案例,但它们也带来了新的挑战。评估它们的可靠性和安全性比感知-思考-行动等模块化方法更复杂。自动驾驶汽车的每个组件(包括集成 LLM)都必须经过验证,这需要针对这些系统量身定制的新测试方法。
  此外,多模态 LLM 规模庞大,对计算机资源要求较高,导致高延迟(计算机操作或通信延迟)。无人驾驶汽车需要实时操作,而目前的模型无法足够快地生成响应。运行 LLM 还需要强大的处理能力和内存,这与车辆有限的硬件限制相冲突。
  目前,多项研究工作都致力于优化 LLM 以用于汽车。我们还需要几年时间才能看到具有常识推理能力的商用无人驾驶汽车上路。
  然而,自动驾驶的未来是光明的。在具有语言能力的人工智能模型中,我们有一个可靠的替代方案,可以替代即将达到极限的感知-思考-行动范式。
  法学硕士被广泛认为是实现能够像人类一样推理和行动的汽车的关键。考虑到每年约有 119 万人死于道路交通事故,这一进步至关重要。
  道路交通伤害是 5-29 岁儿童和青少年死亡的主要原因。具有类人推理能力的自动驾驶汽车的发展可能会大大减少这些数字,挽救无数生命。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-16 22:31 , Processed in 0.034957 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表