找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 32|回复: 0

在计算机视觉和机器人技术中结合下一个标记预测和视频扩散

[复制链接]

2733

主题

0

回帖

5466

积分

管理员

积分
5466
发表于 2024-10-18 08:41:03 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
在当前的 AI 时代,序列模型因其分析数据和预测下一步行动的能力而大受欢迎。例如,您可能使用过 ChatGPT 等下一个标记预测模型,该模型可以预测序列中的每个单词(标记)以形成用户查询的答案。还有 Sora 等全序列扩散模型,它通过连续“去噪”整个视频序列将单词转换为令人眼花缭乱、逼真的视觉效果。
麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员提出了对扩散训练方案的简单改变,使得该序列去噪更加灵活。
当应用于计算机视觉和机器人等领域时,下一个标记和全序列扩散模型存在能力权衡。下一个标记模型可以输出长度不等的序列。
然而,它们在进行这些生成时并不知道遥远未来的理想状态——例如将其序列生成引导至 10 个 token 之外的某个目标——因此需要额外的机制来进行长期规划。扩散模型可以执行这种未来条件采样,但缺乏下一个 token 模型生成可变长度序列的能力。
CSAIL 的研究人员希望结合这两种模型的优势,因此他们创建了一种名为“扩散强制”的序列模型训练技术。该名称来自“教师强制”,这是一种传统的训练方案,它将完整的序列生成分解为更小、更简单的下一个标记生成步骤(就像一位好老师简化复杂的概念一样)。
图片来源:麻省理工学院
扩散强制在扩散模型和教师强制之间找到了共同点:它们都使用涉及从未掩蔽的标记中预测掩蔽(嘈杂)标记的训练方案。在扩散模型的情况下,它们逐渐向数据中添加噪声,这可以视为分数掩蔽。
麻省理工学院研究人员的扩散强制方法训练神经网络来清理一组标记,消除每个标记中不同数量的噪音,同时预测接下来的几个标记。结果:一个灵活、可靠的序列模型,为机器人和人工智能代理提供了更高质量的人工视频和更精确的决策。
通过整理嘈杂的数据并可靠地预测任务的下一步,扩散强制可以帮助机器人忽略视觉干扰来完成操作任务。它还可以生成稳定一致的视频序列,甚至可以引导 AI 代理穿越数字迷宫。
这种方法可能使家用和工厂机器人能够执行新任务并改善人工智能生成的娱乐。
“序列模型旨在根据已知的过去来预测未知的未来,这是一种二进制掩蔽。然而,掩蔽不一定是二进制的,”主要作者、麻省理工学院电气工程和计算机科学 (EECS) 博士生、CSAIL 成员陈博远说。
“通过扩散强制,我们为每个标记添加不同级别的噪声,有效地充当一种分数掩蔽。在测试时,我们的系统可以‘揭开’一组标记的面纱,并在不久的将来以较低的噪声水平扩散一个序列。它知道在数据中可以信任什么,以克服分布外的输入。”
在几项实验中,扩散强迫法成功忽略了误导性数据,并执行任务,同时预测未来的行动。
例如,当它被安装到机械臂上时,它可以帮助在三个圆形垫子上交换两个玩具水果,这是需要记忆的一系列长期任务的最小例子。研究人员通过在虚拟现实中远程控制(或远程操作)机器人来训练它。
机器人经过训练,可以通过摄像头模仿用户的动作。尽管机器人从随机位置开始,并看到购物袋等干扰物挡住标记,但它仍将物体放到目标位置。
为了生成视频,他们利用 Google DeepMind Lab 模拟器中创建的“Minecraft”游戏玩法和丰富多彩的数字环境对 Diffusion Forcing 进行了训练。当给定一帧镜头时,该方法可以生成比同类基线(如 Sora 类全序列扩散模型和 ChatGPT 类下一个标记模型)更稳定、分辨率更高的视频。
这些方法制作的视频看起来不一致,有时无法生成超过 72 帧的有效视频。
扩散强迫不仅可以生成精美的视频,还可以充当运动规划器,引导人们实现期望的结果或奖励。由于其灵活性,扩散强迫可以独特地生成具有不同范围的计划,执行树搜索,并融入远期未来比近期未来更不确定的直觉。
在解决二维迷宫的任务中,扩散强制通过生成更快的到达目标位置的计划,表现优于六条基线,这表明它可能成为未来机器人的有效规划器。
在每个演示中,扩散强制都充当了全序列模型、下一个标记预测模型或两者兼而有之。据陈介绍,这种多功能方法可能成为“世界模型”的强大支柱,“世界模型”是一种可以通过训练数十亿个互联网视频来模拟世界动态的人工智能系统。
这将允许机器人根据周围环境想象自己需要做什么,从而执行新任务。例如,如果你让机器人在没有接受过如何开门的训练的情况下开门,模型可以制作一段视频向机器展示如何做到这一点。
该团队目前正在寻求将他们的方法扩展到更大的数据集和最新的转换器模型,以提高性能。他们打算扩大他们的工作范围,构建一个类似 ChatGPT 的机器人大脑,帮助机器人在无需人工演示的情况下在新环境中执行任务。
麻省理工学院助理教授、CSAIL 成员、场景表征小组负责人 Vincent Sitzmann 表示:“通过扩散强制,我们朝着视频生成和机器人技术更紧密结合的方向迈进了一步。”
“最终,我们希望能够利用互联网上视频中存储的所有知识,使机器人能够帮助日常生活。还有许多令人兴奋的研究挑战,比如机器人如何通过观察人类来学习模仿人类,即使它们的身体与我们的身体有很大不同。”
该团队将于 12 月在NeurIPS上展示他们的研究成果,他们的论文可在arXiv预印本服务器上查阅。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-16 23:58 , Processed in 0.034698 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表