计算方法可以通过对话不断向机器人传授新技能

Josiah02 · 发表于 2024-9-20 13:54:44

虽然机器人专家在过去几十年推出了越来越复杂的机器人系统，但迄今为止推出的大多数解决方案都是预先编程和训练的，以解决特定任务。在与机器人互动的同时不断教授机器人新技能的能力可能非常有益，并可能促进机器人的广泛使用。
亚利桑那州立大学 (ASU) 的研究人员最近开发了一种新的计算方法，可以让用户通过基于对话的互动不断训练机器人完成新任务。这种方法在arXiv预印本服务器上发布的一篇论文中进行了介绍，最初用于教机器人操纵器如何成功准备冷三明治。
“我们的目标是推动在人们家中部署能够学会烹饪冷餐的机器人，”该论文的指导作者 Nakul Gopalan 告诉 Tech Xplore。“我们希望从用户的角度来理解人们需要家用机器人具备哪些行为。
“这种用户视角让我们在与机器人交流时使用语言和对话。不幸的是，这些机器人可能并不了解一切，比如如何为你煮意大利面。”
Gopalan 和他的同事最近研究的主要目标是设计一种方法，使机器人能够从人类代理那里快速获得以前未知的技能或行为。
在 AAAI 人工智能大会上发表的一篇论文中，该团队专注于通过基于对话的交互来教机器人完成视觉任务。他们的新研究以之前的努力为基础，引入了一种更全面的基于对话的机器人训练方法。
“我们这项工作的范围是通过允许用户个性化他们的机器人来提高机器人的适用性，”论文合著者顾伟伟告诉 Tech Xplore。“由于机器人需要为不同的用户完成不同的任务，而完成这些任务需要不同的技能，制造商不可能预先训练机器人掌握所有这些场景所需的所有技能。因此，机器人需要从用户那里获得这些技能和任务相关知识。”
为了确保机器人能够有效地从用户那里获得新技能，该团队必须克服各种挑战。首先，他们必须确保在教导机器人时让人类用户参与其中，并且机器人以非专家用户可以理解的方式传达任何疑问或请求更多信息。
“其次，机器人只需从与用户的几次互动中获取知识，因为用户不可能无限期地与机器人呆在一起，”顾说。“最后，尽管机器人获得了新知识，但它不应该忘记任何先前存在的知识。”
Gopalan、Gu 和他们的同事 Suresh Kondepudi 和 Lixiao Huang 着手共同解决持续学习的所有这些要求。他们提出的交互式持续学习系统通过三个不同的组件来解决这三个子任务。
用户通过握住机器人手臂来教机器人技能。
“首先，基于大型语言模型 (LLM) 的对话系统会向用户提问，以获取它可能不具备的任何知识或继续与人互动，”Gopalan 解释道。“但是，机器人如何知道它不知道某些东西呢？
“为了解决这个问题，我们在机器人技能库上训练了第二个组件，并学习了它们与语言命令的映射。如果所要求的技能与机器人已知的语言不接近，它就会要求进行演示。”
该团队新开发的系统还包括一种机制，使机器人能够理解人类何时在演示如何完成任务。如果提供的演示不够充分，机器人还未可靠地掌握技能，该模块允许机器人要求进行额外的演示。
“我们联合使用技能表征和语言表征来模拟机器人对技能的了解，”顾说。“当机器人需要执行一项技能时，它首先通过比较该技能的语言表征和机器人拥有的所有技能的语言表征来估计它是否具备直接执行该技能的能力。
“如果机器人确信自己能够做到，它就会直接执行技能。否则，它会要求用户在机器人面前亲自执行技能来演示技能。”
本质上，在机器人观察到用户完成特定任务后，团队的系统会根据收集到的视觉信息确定它已经具备完成该任务所需的技能。
如果系统预测机器人尚未掌握新技能，机器人就会要求用户通过遥控器描绘出相关的机器人轨迹，以便机器人可以将这些轨迹添加到技能库中，并在将来独立完成相同的任务。
“我们将这些技能表现形式与法学硕士学位联系起来，让机器人能够表达它的疑虑，这样即使是非专家用户也能理解机器人的要求并提供相应的帮助，”顾说。
该系统的第二个模块基于经过预训练和微调的动作分块转换器 (ACT) 和低秩自适应 (LoRA)。最后，该团队开发了一个持续学习模块，使机器人能够不断向其技能库中添加新技能。
“在机器人预先训练了某些预先选择的技能后，神经网络的大多数权重都是固定的，只有低秩自适应引入的一小部分权重用于学习机器人的新技能，”顾说。“我们发现我们的算法能够有效地学习新技能，而不会彻底忘记任何现有的技能。”
研究人员在一系列真实世界中测试了他们提出的闭环技能学习系统，并将其应用于 Franka FR3 机器人操纵器。该机器人与八名人类用户进行了互动，并逐渐学会了处理简单的日常任务，即制作三明治。
机器人完成整个任务序列并制作出三明治。
“我们能够通过与真实用户对话来展示闭环技能训练方法，这一事实本身就令人印象深刻，”Gopalan 说道。“我们展示了机器人能够按照来到我们实验室的用户的教诲制作三明治。”
研究人员收集的初步结果非常令人鼓舞，因为发现 ACT-LORA 组件仅经过五次人工演示就能以 100% 的准确率获得新的微调技能。此外，该模型在预训练技能上的准确率仍为 74.75%，优于其他类似模型。
“我们设计的机器人系统能够与真实用户一起工作，这让我们非常兴奋，因为这为这项工作在真实机器人应用方面带来了光明的未来，”顾说。“然而，我们确实发现了改进这种系统通信效率的空间。”
虽然新开发的学习系统在团队的实验中取得了良好的效果，但它也存在一些局限性。例如，团队发现它无法支持机器人和人类用户之间的轮流，因此它依赖于研究人员来阐明轮到谁来解决手头的任务。
“虽然我们的发现让我们兴奋不已，但我们也发现机器人需要时间学习，这可能会让用户感到恼火，”戈帕兰说。“我们仍然需要找到让这个过程更快的机制，这是我们下一步打算解决的核心机器学习问题。
“我们希望这项工作能够在人们的家中进行真正的实验，这样我们就知道在家庭护理中使用机器人存在哪些挑战。”
顾、戈帕兰及其同事开发的系统很快将得到进一步改进，并在更广泛的烹饪任务上进行测试。研究人员目前正在努力解决他们观察到的轮流问题，并扩大用户可以教机器人烹饪的菜品范围。他们还计划进行进一步的实验，让更多的人类参与者参与其中。
“轮流问题是自然交互中的一个有趣问题，”顾补充道。“这个研究问题对交互式家用机器人也有很强的应用意义。”
“除了解决这个问题之外，我们还有兴趣通过引入更多不同的任务并对来自现实世界人口统计数据的用户试验我们的系统来扩大这项工作的规模。”

账号		自动登录	找回密码
密码			立即注册