找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 47|回复: 0

研究人员引入了新方法,允许机器人在扫描的家庭环境模拟中接受训练

[复制链接]

2733

主题

0

回帖

5466

积分

管理员

积分
5466
发表于 2024-8-2 08:23:51 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
  许多人的自动化愿望清单中排在首位的是一项特别耗时的任务:家务。
  许多机器人专家的梦想是设计出合适的硬件和软件组合,让机器能够学习在任何情况下、任何地方都适用的“通才”策略(指导机器人行为的规则和策略)。
  但实际上,如果你有一个家用机器人,你可能并不太在意它是否能为你的邻居工作。考虑到这一点,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员决定尝试找到一种解决方案,以便轻松训练针对特定环境的稳健机器人策略。
  麻省理工学院 CSAIL 的 Improbable AI 实验室研究助理、这项研究的论文主要作者 Marcel Torne Villasevil 说道:“我们的目标是让机器人在单一环境中,在干扰、分心、不同的光照条件和物体姿势变化的情况下,都能表现得非常出色。”该论文发表在预印本服务器arXiv上。
  “我们提出了一种利用计算机视觉领域的最新进展即时创建数字孪生的方法。只需使用手机,任何人都可以捕捉现实世界的数字复制品,并且得益于 GPU 并行化,机器人可以在模拟环境中比现实世界更快地进行训练。我们的方法通过利用一些现实世界的演示来启动训练过程,从而消除了对大量奖励工程的需求。”
  将机器人带回家
  当然,RialTo 比简单地挥动手机(砰!)即可让家用机器人为您服务要复杂一些。首先,使用您的设备通过 NeRFStudio、ARCode 或 Polycam 等工具扫描目标环境。重建场景后,用户可以将其上传到 RialTo 的界面进行详细调整,为机器人添加必要的关节等。
  经过优化的场景被导出并带入模拟器。在这里,我们的目标是根据现实世界的动作和观察制定策略,例如从柜台上抓取杯子的策略。这些现实世界的演示在模拟中得到复制,为强化学习提供了一些有价值的数据。
  Torne 表示:“这有助于制定在模拟和现实世界中均能良好运行的强大策略。使用强化学习的增强算法有助于指导这一过程,以确保该策略在模拟器之外应用时仍然有效。”
  测试表明,无论是在受控的实验室环境中,还是在更难以预测的现实环境中,RialTo 都能为各种任务制定出强大的策略,在演示次数相同的情况下,其表现比模仿学习提高了 67%。这些任务包括打开烤面包机、将书放在书架上、将盘子放在架子上、将杯子放在架子上、打开抽屉和打开橱柜。
  对于每项任务,研究人员在三个难度逐渐增加的级别下测试了系统的性能:随机化物体姿势、添加视觉干扰物以及在执行任务时施加物理干扰。当与现实世界的数据相结合时,该系统的表现优于传统的模仿学习方法,尤其是在存在大量视觉干扰或物理干扰的情况下。
  精密家用机器人,带真实到模拟到真实。图片来源:麻省理工学院 CSAIL
  “这些实验表明,如果我们关心在某一特定环境中的稳健性,最好的想法是利用数字孪生,而不是试图通过在不同环境中进行大规模数据收集来获得稳健性,”不可思议的人工智能实验室主任、麻省理工学院电气工程与计算机科学 (EECS) 副教授、麻省理工学院 CSAIL 首席研究员、该研究的高级作者 Pulkit Agrawal 说。
  至于局限性,RialTo 目前需要三天时间才能完成全面训练。为了加快速度,该团队提到改进底层算法并使用基础模型。模拟训练也有其局限性,目前很难轻松实现模拟到现实的转移并模拟可变形物体或液体。
  下一个层次
  那么 RialTo 的下一步计划是什么呢?在之前努力的基础上,科学家们正在努力保持对各种干扰的稳健性,同时提高模型对新环境的适应性。
  Torne 说:“我们下一步的努力是使用预先训练的模型,加速学习过程,最大限度地减少人工投入,并实现更广泛的泛化能力。”
  Torne 表示:“我们对我们的‘即时’机器人编程概念非常热衷,机器人可以自主扫描周围环境并学习如何在模拟中解决特定任务。虽然我们目前的方法存在局限性——例如需要人工进行一些初始演示,并且需要大量计算时间来训练这些策略(最多三天),但我们认为这是实现‘即时’机器人学习和部署的重要一步。”
  “这种方法使我们更接近未来,机器人不再需要预先制定涵盖所有场景的策略。相反,它们可以在没有大量现实世界互动的情况下快速学习新任务。在我看来,与仅仅依赖通用的、包罗万象的策略相比,这一进步可以加速机器人技术的实际应用。”
  华盛顿大学计算机科学博士生 Zoey Chen 表示:“为了在现实世界中部署机器人,研究人员传统上依赖于诸如从专家数据进行模仿学习(这可能很昂贵)或强化学习(这可能不安全)等方法,但他并未参与该论文。
  “RialTo 通过其新颖的真实到模拟到真实管道,直接解决了现实世界 RL [机器人学习] 的安全约束和数据驱动学习方法的有效数据约束。
  “这种新颖的流程不仅确保在实际部署之前在模拟中进行安全而稳健的训练,而且还显著提高了数据收集的效率。RialTo 有潜力显著扩大机器人学习的规模,并使机器人能够更有效地适应复杂的现实场景。”
  华盛顿大学计算机科学博士生 Marius Memmel 补充道:“模拟通过为策略学习提供廉价、可能无限的数据,在真实机器人上展现出了令人印象深刻的能力。”他没有参与这项工作。
  “然而,这些方法仅限于少数特定场景,构建相应的模拟既昂贵又费力。RialTo 提供了一种易于使用的工具,可以在几分钟内(而不是几小时)重建真实世界环境。
  “此外,它在策略学习过程中大量使用收集到的演示,最大限度地减轻了操作员的负担,缩小了 sim2real 差距。RialTo 展示了对物体姿势和干扰的鲁棒性,展现了令人难以置信的真实世界性能,而无需大量的模拟器构建和数据收集。”

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-17 03:03 , Processed in 0.025496 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表