计算框架简化了 3D 环境中人类角色的合成动作
人工智能 (AI) 系统在合成人类、动物和物体的图像和视频方面已经变得越来越好。自动生成人类角色参与特定活动的视频可以有各种有价值的应用,例如简化动画电影、虚拟现实 (VR) 内容和视频游戏的创作。北京大学、BIGAI 和北京邮电大学的研究人员开发了一种新的计算框架,可以为在 3D 环境中导航的人类角色生成逼真的动作。
该框架是在SIGGRAPH Asia 2024 大会上发表的一篇论文中介绍的,它依靠自回归扩散模型来合成连续的角色运动片段,并依靠调度程序来预测下一组动作的过渡。
论文共同作者江南 (Nan Jiang) 告诉 Tech Xplore:“我们进行这项研究的灵感来自于观察人类与日常环境互动的轻松而直观的方式。”
“无论是伸手去拿桌上的咖啡杯,还是在家具周围走动,我们的动作都流畅自然,无需刻意规划。这种自然的活力激发了我们雄心勃勃的尝试,即彻底改变虚拟角色与周围环境的互动方式。”
人们发现,许多用于生成人体动作的 AI 模型可以为虚拟人形角色生成合理的物体交互动作。然而,为了获得良好性能,这些模型通常需要复杂且用户定义的输入,例如预定义的路径点和阶段转换。
论文共同作者 Zimo He 表示:“这种对用户定义输入的依赖不仅使用户体验复杂化,而且还妨碍了运动生成的自动化和流畅性。”
“认识到这些限制后,我们的主要目标是开发一个可以简化这一过程的综合框架。我们的目标是创建一个能够仅使用简单的文本指令和指定的目标位置即可自主生成自然、多阶段和场景感知的人体运动的系统。”
研究人员着手增强模型生成动作的连贯性和真实感,同时尽量减少对复杂用户输入的需求。为了实现这一目标,他们还编制了 LINGO 数据集,这是一个新的语言注释动作捕捉数据集合,可用于训练机器学习模型。
“我们的框架旨在将简单的文本指令和目标位置转换为 3D 环境中逼真的多阶段人体运动,”论文共同通讯作者 Yixin Zhu 说道。“该系统的核心是集成了多个创新组件,这些组件协同工作以实现这种转换。”
该团队框架的第一个组成部分是自回归扩散模型,该模型可生成连续的人体运动片段。此过程反映了人类实时调整动作的过程,从而实现从一种动作到另一种动作的平稳过渡。
蒋说: “我们之前在杜鲁门号上利用体素网格来表示场景,现在我们已经发展到双体素场景编码器。”
“通过捕捉当前的周围环境并根据目标位置预测未来空间,这一增强功能使系统能够全面了解环境。”
该团队框架所采用的双重方法最终使角色能够顺利地在 3D 环境中导航,与物体互动并避开附近的障碍物。值得注意的是,该框架还包括一个嵌入框架的文本组件。
“该编码器将文本指令与时间信息整合在一起,这意味着它不仅了解要执行哪些操作,还了解何时执行这些操作,”Zimo 说道。“这种整合确保生成的动作与文本中描述的预期动作准确一致,就像人类自然地以完美的时间顺序排列动作一样。”
本质上,目标编码器会处理角色的目标位置以及该角色在途中需要完成的任何子目标,并将其分为不同的交互阶段。此步骤会引导角色的移动,使其朝着预期目标前进。
“对此进行补充的是我们的自主调度程序,它充当着‘运动指挥家’的作用,”该论文的共同作者李宏杰说。
“它可以智能地确定不同动作阶段之间过渡的最佳点,例如从行走到伸手或互动。这确保了整个动作序列无缝自然地流动,没有突然或不自然的过渡。”
江和他的同事开发的新框架与过去推出的其他角色动作生成模型相比具有多种优势。最值得注意的是,它简化了用户需要输入动作以生成连贯动作的信息,将其限制为基本文本指令和角色应该到达的目标位置。
“通过整合场景感知和时间语义,我们的系统可以产生符合情境且视觉上令人信服的动作,”该论文的共同通讯作者黄思远说。
“此外,统一的管道能够熟练地处理复杂的动作序列,保持连续性并最大限度地减少多样化和混乱环境中的意外碰撞。”
在研究人员进行的初步测试中,他们的框架表现非常出色,在有限的用户输入下生成高质量且连贯的角色动作。研究人员发现,生成的动作与用户提供的文本指令以及虚拟角色所处的环境背景一致。
江说:“这种对齐通过各种指标进行了定量验证,与 TRUMANS 等现有方法相比,我们的方法表现出了卓越的精度,并显著减少了场景穿透的情况。”“这些进步凸显了我们的框架在产生不仅在视觉上令人信服,而且在上下文和空间上准确的运动方面的有效性。”
这项研究的另一个重要贡献是引入了 LINGO 数据集,该数据集可用于训练其他算法。该数据集包含超过 16 小时的运动序列,涵盖 120 个独特的室内场景,并展示了 40 种不同类型的角色场景互动。
Zimo 说:“LINGO 数据集为训练和评估运动合成模型奠定了坚实的基础,弥合了自然语言和运动数据之间的差距。”
“通过提供详细的语言描述和运动数据,LINGO 有助于更深入地理解人类语言、运动和环境互动之间的相互作用,从而支持和启发该领域的未来研究。”
与之前推出的模型所创建的角色动作相比,该团队的框架所生成的角色动作更加流畅、自然。这很大程度上归功于其底层的运动合成组件。
“通过将运动、手部伸展和人与物体的交互无缝集成到单个有凝聚力的管道中,我们的模型在运动序列中实现了一定程度的连贯性和流畅性,超越了分散的、特定阶段的方法,”李说。“这种集成不仅简化了运动生成过程,还增强了虚拟角色在其环境中交互的整体真实感和可信度。”
蒋、子墨和他们的同事提出的新框架可以有各种实际应用。首先,它可以简化和支持使用 VR 和 AR 技术生成沉浸式内容。
“在虚拟现实(VR) 和增强现实 (AR)领域,我们的框架可以显著增强虚拟角色的真实感和沉浸感,从而改善用户体验,”李说。“游戏和动画行业将从我们的系统中受益匪浅,因为它可以自动生成多样化、逼真的角色动画,减少所需的手动工作量,并增加游戏内动作的多样性。”
研究人员的框架还可用于制作个性化的演示视频,指导用户如何完成运动和康复治疗练习。这些视频模拟了用户需要执行的动作,使他们能够独立完成练习,而无需人工指导。
朱教授表示:“在机器人和人机交互方面,让机器人能够做出类似人类的动作,并在共享环境中无缝交互,可以极大地提高协作任务和效率。此外,我们的框架还可以用于辅助生活和培训模拟,为培训目的开发逼真的模拟,例如应急响应培训或各个专业领域的技能开发。”
未来,江教授及其同事提出的框架和数据集将有助于进一步推进基于人工智能的动作生成模型。与此同时,研究人员正在努力进一步改进他们的方法,例如提高其生成动作的物理准确性。
蒋说:“虽然我们目前的模型在制作视觉逼真的动作方面表现出色,但我们的目标是融入更细微的物理特性,如重力、摩擦力和平衡性。”“这种改进将确保动作不仅在外观上可信,而且在物理上也合理,从而提高它们在现实场景中的可靠性和适用性。”
在接下来的研究中,江教授和同事们还将尝试提高模型生成动作的精细度。目前,他们的模型主要关注人物的身体动作,但他们希望最终模型也能捕捉到更精细的细节,比如手势和面部表情。
“通过整合这些元素,我们希望虚拟角色能够实现更高的真实感和表现力,使它们的互动更加人性化、更具吸引力,”Zimo 说道。
该团队希望改进模型的另一个方面是其在更广泛的角色场景交互中推广的能力。此外,他们希望该模型能够实时合成动作。
“能够根据动态输入即时生成动作的能力对于实时 VR 体验和响应式游戏环境等交互式应用尤其有益,”Zi Wang 说道。“实现实时功能将大大拓宽我们框架的实际可用性,使其更能适应现实世界的交互需求。”
在接下来的研究中,研究人员还计划在他们的框架中整合多模式输入。这将允许用户以更具吸引力的方式与虚拟角色进行互动。
“通过整合语音和手势等其他输入方式,我们的目标是为动作合成创建一个更全面、更直观的界面,”陈一新说。“这种多模式方法将允许用户以更自然、更无缝的方式与虚拟角色互动,从而提升整体用户体验。”
蒋、子墨和同事的最终目标是确保他们的模型既可扩展又节能,尤其是当它产生的交互的复杂性增加时。这可以促进其在现实世界中的部署,确保其性能和效率即使在处理计算要求高的任务时也能保持良好。
“通过这些研究努力,我们希望突破自主人体运动合成的界限,使其在各个行业和应用中越来越有效和通用,”朱补充道。“我们对我们工作的未来潜力感到兴奋,并期待为这个充满活力的领域做出进一步的贡献。”
页:
[1]