用于生成高分辨率视频的新型 AI 模型 Pyramid Flow 现已作为开源软件推出

Josiah02 · 发表于 2024-10-15 11:03:20

北京大学、快手科技和北京邮电大学的人工智能研究团队开发了一种名为 Pyramid Flow 的新人工智能模型，可用于生成虚拟高分辨率 (768p) 视频图像。该团队撰写了一篇论文，描述了他们如何构建该模型、该模型的属性及其可能的用途，并将其发布在arXiv预印本服务器上。
过去几年，多家公共和私营机构都在竞相开发视频 AI 生成模型。这是因为此类模型可用于创建能够生成电视和电影中使用的虚拟视频内容的应用程序，而且成本远低于拍摄真实场景。
这意味着人工智能模型的价值正在迅速提升。在这项新举措中，中国团队选择将他们的模型开源，这意味着任何选择为其开发应用程序（推理外壳）并在本地运行它（包括用于商业用途）的人都可以免费这样做。
Pyramid Flow 的开发者为 AI 视频生成模型添加了新功能——它在生成最终处理结果之前，会分多个低分辨率阶段生成视频。研究团队声称，推理外壳可以在 56 秒内生成一段时长为 5 秒的视频，最终分辨率为 384p。
他们指出，他们的方法生成视频所需的计算能力要少得多，因此成本更低。它还大大减少了生成视频所需的令牌数量，从而使其更加高效。
该团队已在GitHub上发布了 Pyramid Flow 的代码（根据 MIT 许可），以及示例视频，这些视频展示了该模型可以实现的高度逼真的结果。他们还列出了用于训练模型的开源数据集，这些数据集加起来有 1000 万个短视频。
研究团队没有提及那些认为开源数据库制作的虚拟视频侵犯版权所有者权利的人不断提出的指控的影响。但他们确实表示，Pyramid Flow 可能是一种适合用于微调开源材料的工具，无需向第三方付费。

账号		自动登录	找回密码
密码			立即注册