研究表明，自动驾驶汽车可以通过 ChatGPT 更好地理解乘客

Josiah02 · 发表于 2024-9-19 12:20:27

想象一下，你只需告诉你的车辆，“我很着急”，它就会自动带你以最有效的路线到达你需要去的地方。
普渡大学的工程师发现，自动驾驶汽车（AV）可以借助 ChatGPT 或其他聊天机器人做到这一点，而这得益于称为大型语言模型的人工智能算法。
这项研究发表在预印本服务器arXiv上，将于 9 月 25 日在第 27 届 IEEE 国际智能交通系统会议上发表。这可能是首批测试真实 AV 如何利用大型语言模型来解释乘客的命令并据此驾驶的实验之一。
这项研究的负责人、普渡大学莱尔斯土木工程学院助理教授王子然认为，如果有一天汽车能够完全自动驾驶，它们就需要理解乘客发出的所有指令，即使这些指令是隐含的。例如，当你说你赶时间时，出租车司机会知道你需要什么，而你无需指定司机应该走哪条路线来避开交通拥堵。
尽管如今的自动驾驶汽车具备了让你与它们交流的功能，但它们需要你比与人交谈时表达得更清楚。相比之下，大型语言模型可以以更像人类的方式解释和给出回应，因为它们经过训练可以从大量文本数据中得出关系，并随着时间的推移不断学习。
王说：“我们车辆中的传统系统采用用户界面设计，你必须按下按钮来传达你想要的内容，或者采用音频识别系统，要求你说话时非常明确，以便你的车辆能够理解你。”“但大型语言模型的强大之处在于它们可以更自然地理解你所说的各种事情。我认为任何其他现有系统都无法做到这一点。”
普渡大学博士生崔灿坐在测试自动驾驶汽车上。控制台上的麦克风接收他的命令，云端的大型语言模型对其进行解释。汽车根据大型语言模型生成的指令行驶。图片来源：普渡大学/约翰·安德伍德
开展一种新型研究
在这项研究中，大型语言模型并没有驱动自动驾驶汽车。相反，它们利用自动驾驶汽车的现有功能来协助自动驾驶汽车。王和他的学生发现，通过整合这些模型，自动驾驶汽车不仅可以更好地理解乘客，还可以根据乘客的满意度进行个性化驾驶。
在开始实验之前，研究人员用各种提示训练 ChatGPT，这些提示包括更直接的命令（例如，“请开快点”）和更间接的命令（例如，“我现在感觉有点晕车”）。在 ChatGPT 学习如何响应这些命令时，研究人员为其大型语言模型提供了要遵循的参数，要求它考虑交通规则、道路状况、天气以及车辆传感器检测到的其他信息，例如摄像头和光线检测和测距。
研究人员随后将这些大型语言模型通过云端提供给一辆实验车辆，该车辆具有SAE International 定义的四级自动驾驶能力。四级自动驾驶能力距离业界所认为的完全自动驾驶汽车仅差一个级别。
在实验过程中，当车辆的语音识别系统检测到乘客发出的指令时，云端的大型语言模型会根据研究人员定义的参数推理该指令。然后，这些模型会为车辆的线控驾驶系统（与油门、刹车、齿轮和转向系统相连）生成指令，指导车辆如何按照指令行驶。
当研究参与者坐在测试自动驾驶汽车的驾驶座上并发出指令时，普渡大学的一名研究人员坐在后座上监控大型语言模型和车辆摄像头的反馈。从后到前依次为：普渡大学硕士生周宇鹏和博士生崔灿。图片来源：普渡大学/约翰·安德伍德
在一些实验中，王的团队还测试了他们安装在系统中的记忆模块，该模块允许大型语言模型存储有关乘客历史偏好的数据，并学习如何将其纳入对命令的响应中。
研究人员在印第安纳州哥伦布市的试验场进行了大部分实验，该试验场以前是机场跑道。在这种环境下，他们可以安全地测试车辆在跑道上以高速公路速度行驶和通过双向交叉路口时对乘客指令的响应。他们还在普渡大学罗斯-艾德体育场的停车场测试了车辆根据乘客指令停车的准确程度。
研究参与者既使用了大型语言模型已经学会的命令，也使用了在乘坐车辆时遇到的新命令。根据他们乘坐后的调查回复，与人们在没有大型语言模型帮助的情况下乘坐四级自动驾驶汽车时的感觉数据相比，参与者对自动驾驶汽车做出的决定感到不舒服的比例较低。
该团队还将自动驾驶汽车的性能与根据人们认为的一般安全舒适驾驶数据创建的基准值进行了比较，例如汽车为避免追尾碰撞而允许的反应时间以及汽车加速和减速的速度。研究人员发现，在使用大型语言模型驾驶时，本研究中的自动驾驶汽车的表现优于所有基准值，即使在响应模型尚未学习的命令时也是如此。
测试自动驾驶汽车的后备箱内装有线控驱动系统，该系统允许云端的大型语言模型协助汽车响应乘客的指令。从左到右依次为：普渡大学博士生杨子冲和普渡大学助理教授王子然。图片来源：普渡大学/约翰·安德伍德
未来方向
王说，这项研究中的大型语言模型平均需要 1.6 秒来处理乘客的命令，这在时间要求不高的情况下是可以接受的，但在自动驾驶汽车需要更快响应的情况下，应该改进。这是一个影响大型语言模型的问题，业界和大学研究人员正在努力解决这个问题。
虽然这不是本研究的重点，但众所周知，像 ChatGPT 这样的大型语言模型容易产生“幻觉”，这意味着它们可能会误解所学到的东西并以错误的方式做出反应。王的研究是在一种带有故障安全机制的装置中进行的，当大型语言模型误解命令时，该装置允许参与者安全驾驶。在参与者的整个驾驶过程中，模型的理解能力不断提高，但在汽车制造商考虑将大型语言模型应用于自动驾驶汽车之前，幻觉仍然是一个必须解决的问题。
汽车制造商还需要在大学研究人员进行的研究基础上，对大型语言模型进行更多测试。王说，将这些模型与自动驾驶汽车的控制装置集成，以便它们能够真正驾驶汽车，还需要获得监管部门的批准。
与此同时，王和他的学生正在继续进行实验，这可能有助于业界探索在 AV 中添加大型语言模型。
测试自动驾驶汽车在普渡大学罗斯-艾德体育场停车场进行演示。图片来源：普渡大学/约翰·安德伍德
自从他们对 ChatGPT 进行测试以来，研究人员已经评估了其他基于大型语言模型的公共和私人聊天机器人，例如 Google 的 Gemini 和 Meta 的 Llama AI 助手系列。到目前为止，他们已经看到 ChatGPT 在自动驾驶汽车安全和省时指标方面表现最佳。即将发布结果。
下一步是看看每辆自动驾驶汽车的大型语言模型是否有可能相互交流，比如帮助自动驾驶汽车确定在十字路口哪个先走。王的实验室还启动了一个项目，研究使用大型视觉模型帮助自动驾驶汽车在中西部常见的极端冬季天气中行驶。这些模型就像大型语言模型，但训练的是图像而不是文本。

账号		自动登录	找回密码
密码			立即注册