这些人工智能系统可以利用照片或视频进行模拟，训练机器人在物理空间中发挥作用

Josiah02 · 发表于 2024-8-8 07:30:03

　　致力于开发 ChatGPT 等大型人工智能模型的研究人员拥有大量互联网文本、照片和视频来训练系统。但训练实体机器的机器人专家面临障碍：机器人数据价格昂贵，而且由于没有遍布全球的机器人队伍，因此根本没有足够的数据让它们在动态环境（例如人们的家中）中表现良好。
　　一些研究人员开始使用模拟来训练机器人。然而，即使是这个过程，也往往需要平面设计师或工程师的参与，而且费力又费钱。
　　华盛顿大学研究人员的两项新研究介绍了一种人工智能系统，该系统使用视频或照片来创建模拟，可以训练机器人在真实环境中运行。这可以大大降低训练机器人在复杂环境中运行的成本。
　　在第一项研究中，用户使用智能手机快速扫描某个空间，记录其几何形状。然后，名为 RialTo 的系统可以创建该空间的“数字孪生”模拟，用户可以在其中输入不同事物的运作方式（例如打开抽屉）。
　　然后，机器人可以在模拟中虚拟地重复动作，并略作变化，以学习如何有效地完成这些动作。在第二项研究中，该团队建立了一个名为 URDFormer 的系统，该系统从互联网上获取真实环境的图像，并快速创建物理上逼真的模拟环境，供机器人进行训练。
　　两个团队在荷兰代尔夫特举行的机器人科学与系统会议上展示了他们的研究成果，第一个团队于 7 月 16 日展示了他们的研究成果，第二个团队于 7 月 19 日展示了他们的研究成果。
　　两项新研究介绍了使用视频或照片创建模拟的人工智能系统，可以训练机器人在现实世界中发挥作用。这可以大大降低训练机器人在复杂环境中工作的成本。在这里，URDFormer 系统将厨房的互联网照片转换为厨房的功能模拟。图片来源：Chen et al./RSS 2024
　　“我们正在尝试让系统能够以低成本从现实世界进入模拟世界，”华盛顿大学保罗·G·艾伦计算机科学与工程学院助理教授、两篇论文的共同资深作者 Abhishek Gupta 说道。
　　“然后，系统可以在这些模拟场景中训练机器人，这样机器人就可以在物理空间中更有效地工作。这对于安全非常有用——你不能让训练不足的机器人破坏东西并伤害人们——而且它可能会扩大使用范围。如果你只需用手机扫描机器人就可以让它在你家里工作，那么这项技术就变得民主化了。”
　　虽然目前许多机器人非常适合在装配线等环境中工作，但教会它们与人互动以及在结构不太复杂的环境中互动仍然是一个挑战。
　　“例如，在工厂里，有大量的重复工作，”URDFormer 研究的首席作者、艾伦学院的华盛顿大学博士生 Zoey Chen 说道。“这些任务可能很难完成，但一旦你对机器人进行编程，它就可以一遍又一遍地重复执行任务。而家庭是独一无二的，而且不断变化。这里有各种各样的物体、任务、平面图和穿过它们的人。这就是人工智能对机器人专家真正有用的地方。”
　　这两个系统以不同的方式应对这些挑战。
　　RialTo 是 Gupta 与麻省理工学院团队共同开发的，它可以让一个人穿过某个环境，并拍摄其几何形状和移动部件的视频。例如，在厨房里，他们会打开橱柜、烤面包机和冰箱。
　　然后，系统使用现有的人工智能模型（人类通过图形用户界面快速展示事物的移动方式）来创建视频中显示的厨房的模拟版本。虚拟机器人在模拟环境中通过反复尝试诸如打开烤箱之类的任务来训练自己，这种方法称为强化学习。
　　通过在模拟中完成这一过程，机器人可以提高任务完成率，并能应对环境中的干扰或变化，例如放在烤面包机旁边的杯子。然后，机器人可以将学习成果转移到物理环境中，其准确度几乎与在真实厨房中训练的机器人一样高。
　　另一个系统 URDFormer 不太注重单个厨房的相对高精度，而是快速且廉价地生成数百个通用厨房模拟。URDFormer 扫描互联网上的图像，并将它们与现有的模型配对，例如，这些厨房抽屉和橱柜可能会如何移动。
　　然后，它会根据初始的真实世界图像预测模拟结果，让研究人员能够在各种环境中快速且低成本地训练机器人。但缺点是这些模拟结果的准确性明显低于 RialTo 生成的模拟结果。
　　“这两种方法可以相互补充，”古普塔说。“URDFormer 对于数百种场景的预训练非常有用。如果你已经对机器人进行了预训练，现在想把它部署到某人的家中，并希望成功率达到 95%，那么 RialTo 就特别有用。”
　　展望未来，RialTo 团队希望将其系统部署到人们的家中（该系统已在实验室中进行了主要测试），而 Gupta 表示，他希望将少量现实世界的训练数据纳入系统，以提高其成功率。
　　“希望只需极少量的真实数据就能修复故障，”古普塔说。“但我们仍需弄清楚如何最好地结合在真实世界中直接收集的数据（这很昂贵）与在模拟中收集的数据（这虽然便宜，但略有误差）。”
　　URDFormer 论文的其他合著者包括华盛顿大学的 Aaron Walsman、Marius Memmel、Alex Fang（均为艾伦学院的博士生）；艾伦学院的本科生 Karthikeya Vemuri；艾伦学院的硕士生 Alan Wu；以及 NVIDIA 的研究科学家 Kaichun Mo。艾伦学院的教授 Dieter Fox 是本文的共同资深作者。
　　URDFormer 论文的其他合著者包括麻省理工学院的 Marcel Torne、Anthony Simeonov、Tao Chen（均为博士生）、研究助理 Zechu Li 和本科生 April Chan。麻省理工学院助理教授 Pulkit Agrawal 是论文的共同资深作者。URDFormer 研究部分由亚马逊科学中心资助。
　　更多信息： Torne 等人通过模拟协调现实：一种从现实到模拟再到现实的稳健操控方法，enriquecoronadozu.github.io/rs…s2024/rss20/p015.pdf
　　Chen 等人。URDFormer：从真实世界图像构建铰接式模拟环境的管道，enriquecoronadozu.github.io/rs…s2024/rss20/p124.pdf

账号		自动登录	找回密码
密码			立即注册