找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 13|回复: 0

多模态和推理法学硕士 (LLM) 为灵巧的机器人任务提供超大规模训练数据

[复制链接]

2733

主题

0

回帖

5466

积分

管理员

积分
5466
发表于 2024-10-23 12:40:34 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
对于机器人来说,模拟是学习长期(多步骤)任务的绝佳老师——尤其是与收集现实世界训练数据所需的时间相比。
不过,模拟数字动作来教机器人新任务对人类来说也很耗时。麻省理工学院计算机科学与人工智能实验室 (CSAIL) 博士生 Lirui Wang 和他的同事开发了新的“GenSim2”框架,将时间缩短了一半,使用多模态和推理大型语言模型(处理和生成文本、图像和其他媒体的 LLM)来扩大机器人的训练数据。
研究人员结合多模态法学硕士 GPT-4V(可以对文本和图像做出更好的推断)和推理法学硕士 OpenAI o1(可以在回答之前“思考”)的强大功能,拍摄了 10 个真实世界的任务视频,并生成了 100 个新的模拟动作视频。研究结果发表在arXiv预印本服务器上。
GenSim2 可以将任务名称转换为任务描述,然后再转换为任务代码,然后模拟成机器人要执行的一系列动作。这种方法最终可以帮助家用机器人完成一些任务,比如找出重新加热早餐所需的每个步骤,包括打开微波炉和将面包放入烤面包机。将来,它还可以应用于制造和物流领域,在这些领域,机器可能需要分几步运输新材料。
这个框架是王先生早期作品“GenSim”的续篇,该作品使用 LLM 为机器人编码新的拾取和放置任务。他希望将自己的方法扩展到更灵巧的活动和更复杂的物体类别,例如打开盒子或关闭保险箱。
王说:“为了规划机器人技术中这些更复杂的任务,我们需要弄清楚如何解决它们。” “这个规划问题在 GenSim 中不存在,因为任务要简单得多,所以我们只需要‘盲’ LLM。借助 GenSim2,我们集成了逻辑模型 GPT-4V,该模型通过分析具有更好推理能力的图像输入来教多模态模型‘看’。现在,我们可以编写模拟任务,然后在几秒钟内生成计划。”
GenSim2 的基本内容
首先,你提示像 GPT-4 这样的 LLM 生成一个新颖的任务计划,例如“将球放入盒子中”,其中包括图像、资产和关键点(或图像中的特定点)。然后,GPT-4V 审查这些细节并简明扼要地编码执行任务所需的姿势和动作。人类可以向 GPT-4V 提供有关该计划的反馈,然后它会完善其大纲。最后,运动规划器将这些动作模拟成视频,为机器人生成新的训练数据。
为了将这些计划转化为行动,研究人员还设计了一种名为“本体感受点云转换器”(PPT)的新架构。PPT 将语言、点云(3D 空间内的数据点)和本体感受输入转换为最终的动作序列。这使机器人能够学习模仿视频模拟并推广到它以前从未见过的物体。
GenSim2 使用多模 LLM 在模拟中生成大量铰接式 6 自由度机器人任务,用于预训练通用 3D 多任务策略。该框架使用基础模型“放大”有限的现实世界任务和轨迹。图片来源:GenSim2
灯光、摄像机、行动计划!
GenSim2 的改进方法为 100 个包含 200 个对象的明确任务生成了数据。其中,系统模拟了 50 个长期任务,例如将黄金放入保险箱和准备早餐。与生成机器人代理和基线“ RoboGen ”相比,GenSim2 在生成和规划原始任务方面的成功率高出 20%,同时在长期任务方面也更可靠。研究人员指出,拥有能够推理视觉输入的多模态模型让他们占据了优势。
另一个有趣的发现是:人类平均只需大约四分钟就能验证机器人计划,这仅仅是他们手动设计任务所需时间的一半。人类的努力包括在运动规划器中标记关键点并提供反馈以帮助多模态语言模型改进其计划。
在现实世界的实验中,GenSim2 成功地帮助机器人规划任务,例如打开笔记本电脑和关闭抽屉。当它使用模拟和真实数据进行训练以制定机器人策略时,该框架的成功率比任何一种独立框架都要高。这减少了在现实世界中收集大量数据所需的努力。
虽然 GenSim2 是其前身的更复杂、更先进的后续产品,但研究人员指出,他们希望它能够在更少的人工干预下规划和模拟机器人任务。目前,它很难可靠地自行创建和编码有意义的任务。
王还指出,虽然这是实现自动任务生成的一大进步,但研究人员打算让系统更加先进。为此,他们计划通过先进的多模态代理增加任务的复杂性和多样性,并生成 3D 资产。
哥伦比亚大学计算机科学助理教授李云珠 (Yunzhu Li) 表示:“扩大机器人数据一直是创建可通用的机器人基础模型的重大挑战。”他没有参与该论文。
“GenSim2 通过开发可扩展的数据和动作生成框架解决了这一问题,结合了模拟、GPT-4 和模拟到现实的传输。我很高兴看到这项工作如何通过有效扩展机器人可用的数据来引发机器人技术的‘GPT 时刻’。”

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-17 03:08 , Processed in 0.025149 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表