新的数据增强算法可以促进机器人之间的技能转移
近年来,机器人专家开发了各种各样的系统,旨在解决各种现实世界的任务,从完成家务到递送包裹或在划定的环境中寻找目标物体。该领域的一个关键目标是开发算法,允许在具有不同体型和特征的机器人之间可靠地转移特定技能,这将有助于快速训练机器人完成新任务,拓宽其能力。
加州大学伯克利分校的研究人员开发了 RoVi-Aug,这是一种新的计算框架,旨在增强机器人数据并促进不同机器人之间的技能转移。他们提出的方法在arXiv上预先发表的一篇论文中进行了概述,并将在 2024 年机器人学习会议 ( CoRL )上发表,该方法利用最先进的生成模型来增强图像数据并为不同的机器人创建具有不同摄像机视图的合成视觉任务演示。
“现代机器学习系统,特别是生成模型的成功,展示了令人印象深刻的通用性,并激励机器人研究人员探索如何在机器人技术中实现类似的通用性,” Lawrence Chen(博士候选人,AUTOLab,EECS&IEOR,BAIR,加州大学伯克利分校)和 Chenfeng Xu(博士候选人,Pallas Lab&MSC Lab,EECS&ME,BAIR,加州大学伯克利分校)告诉 Tech Xplore。
“自今年年初以来,我们一直在研究跨视点和跨机器人泛化的问题。”
在进行先前的研究时,陈、徐和他们的同事发现了跨不同机器人学习推广的一些挑战。具体来说,他们发现,当机器人数据集中包含的场景分布不均匀时,例如,包含特定机器人视觉效果和摄像机角度占主导地位,这会降低它们在教授不同机器人相同技能方面的效率。
有趣的是,研究人员发现许多现有的机器人训练数据集是不平衡的,包括一些最成熟的数据集。例如,即使是 Open-X 实施 (OXE)数据集,该数据集广泛用于训练机器人算法,包含不同机器人完成不同任务的演示,也包含某些机器人的更多数据,例如 Franka 和 xArm 机械手。
陈和徐说: “数据集中的这种偏见使得机器人政策模型倾向于过度拟合特定的机器人类型和观点。”
“为了缓解这个问题,我们在 2024 年 2 月提出了一种测试时间自适应算法Mirage,该算法使用‘交叉绘画’将看不见的目标机器人转变为训练期间看到的源机器人,从而产生源机器人在测试时执行任务的错觉。”
研究人员在之前的论文中提出的算法 Mirage 被发现能够实现将技能零样本迁移至未见过的目标机器人。然而,该模型被发现存在各种局限性。
首先,Mirage 要想发挥良好作用,需要精确的机器人模型和相机矩阵。此外,该算法不支持机器人策略的微调,并且仅限于处理相机姿势变化较小的图像,因为它很容易在图像深度的重新投影中出错。
“在我们的最新研究成果中,我们提出了一种名为 RoVi-Aug 的替代算法,”陈和徐说。“该算法的目的是通过增强训练期间策略的稳健性和通用性来克服 Mirage 的局限性,专注于处理不同的机器人视觉效果和相机姿势,而不是依赖于对已知相机姿势和机器人 URDF(统一机器人描述格式)进行严格假设的测试时间交叉绘制方法。”
研究人员推出的新型机器人数据增强框架 RoVi-Aug 基于最先进的扩散模型。这些计算模型可以增强机器人轨迹的图像,生成合成图像,从不同视角展示不同机器人完成任务的场景。
RoVi-Aug 流程概述。给定一个输入机器人图像,我们首先使用经过微调的 SAM 模型将机器人分割出来,然后使用 ControlNet 将机器人转换为另一个机器人。将合成机器人粘贴回背景后,我们使用 ZeroNVS 生成新视图。图片来源:Chen 等人
研究人员利用他们的框架编制了一个包含各种合成机器人演示的数据集,然后在这个数据集上训练机器人策略。这反过来又允许将技能转移到以前从未接触过演示中所包含任务的新机器人上,这被称为零样本学习。
值得注意的是,机器人策略还可以进行微调,以在特定任务中实现越来越好的性能。此外,与该团队之前的论文中介绍的 Mirage 模型相反,他们的新算法可以支持摄像机角度的剧烈变化。
“与 Mirage 等测试时适应方法不同,RoVi-Aug 在部署期间不需要任何额外处理,不依赖于提前了解摄像机角度,并支持策略微调,”陈和徐解释道。“它还超越了传统的多机器人、多任务数据集的协同训练,积极鼓励模型学习整个数据集中的全部机器人和技能。”
RoVi-Aug 模型有两个不同的组件,即机器人增强 (Ro-Aug) 和视点增强 (Vi-Aug) 模块。第一个组件旨在合成不同机器人系统的演示数据,而第二个组件可以生成从不同角度观看的演示。
“Ro-Aug 有两个主要特点:一个经过微调的 SAM 模型用于分割机器人,另一个经过微调的 ControlNet 可用不同的机器人替换原来的机器人,”陈和徐说。“同时,Vi-Aug 利用 ZeroNVS(一种最先进的新型视图合成模型)来生成场景的新视角,使模型能够适应各种摄像机视点。”
作为研究的一部分,研究人员使用他们的模型生成了一个增强的机器人数据集,然后测试了该数据集在训练策略和在不同机器人之间迁移技能方面的有效性。他们的初步发现凸显了 Rovi-Aug 的潜力,因为该算法被发现能够训练出适用于不同机器人和摄像头设置的策略。
陈和徐解释说:“它的关键创新在于将生成模型(例如图像到图像生成和新颖的视图合成)应用于跨实体机器人学习的挑战。”
“虽然之前的研究已经利用生成增强来提高面对分散注意力的物体和背景时的策略稳健性,但 RoVi-Aug 首次展示了这种方法如何促进不同机器人之间的技能转移。”
陈和徐的最近研究成果有助于机器人技术的发展,帮助机器人研究人员轻松拓展系统的技能组合。未来,其他团队可利用该成果在不同机器人之间转移技能,或开发更有效的通用机器人策略。
“例如,想象一下这样的场景:一位研究人员花费了大量的精力收集数据,并训练 Franka 机器人制定执行任务的策略,但你只有一台 UR5 机器人,”陈和徐说道。
“RoVi-Aug 可让您重新利用 Franka 数据并在 UR5 机器人上部署策略,而无需额外培训。这特别有用,因为机器人策略通常对摄像机视点变化很敏感,并且在不同的机器人上设置相同的摄像机角度具有挑战性。RoVi-Aug 消除了对这种精确设置的需要。”
由于在现实世界中收集大量的机器人演示可能非常昂贵且耗时,因此 RoVi-Aug 可以成为一种经济高效的替代方案,可以轻松编译可靠的机器人训练数据集。
虽然这些数据集中的图像是合成的(即由人工智能生成),但它们仍然可以用于制定可靠的机器人策略。研究人员目前正在与丰田研究实验室和其他机构的同事合作,将他们的方法应用并扩展到其他机器人数据集。
陈和徐补充道:“我们现在的目标是通过结合生成建模技术的最新发展来进一步完善 RoVi-Aug,例如用视频生成代替图像生成。”
“我们还计划将 RoVi-Aug 应用于现有数据集,如 Open-X Implementation (OXE) 数据集,我们对提升基于这些数据训练的通用机器人策略的性能的潜力感到兴奋。扩展 RoVi-Aug 的功能可以显著提高这些策略在更广泛的机器人和任务中的灵活性和稳健性。”
页:
[1]