新的研究可能会让奇怪的人工智能图像成为过去

Josiah02 发表于 2024-9-18 23:39:43

众所周知，生成式人工智能 (AI) 很难生成一致的图像，经常会弄错手指和面部对称性等细节。此外，当要求生成不同大小和分辨率的图像时，这些模型可能会完全失败。
莱斯大学计算机科学家利用预先训练的扩散模型生成图像的新方法——一类生成式人工智能模型，通过在训练图像上一层又一层地添加随机噪声来“学习”，然后通过去除添加的噪声来生成新图像——可以帮助纠正这类问题。
莱斯大学计算机科学博士生 Moayed Haji Ali 在西雅图举行的电气和电子工程师协会 (IEEE) 2024 计算机视觉和模式识别会议 (CVPR)上发表的一篇同行评审论文中描述了一种名为 ElasticDiffusion 的新方法。
“稳定扩散、Midjourney 和 DALL-E 等扩散模型可以产生令人印象深刻的结果，生成相当逼真和逼真的图像，”哈吉·阿里说。“但它们有一个弱点：它们只能生成方形图像。因此，在显示器或智能手表等具有不同纵横比的情况下……这些模型就会出现问题。”
如果你让 Stable Diffusion 之类的模型创建非正方形图像，比如 16:9 的宽高比，那么用于构建生成图像的元素就会重复。这种重复会以图像或图像主体中奇怪的畸形形式出现，比如有六根手指的人或奇怪细长的汽车。
莱斯大学计算机科学博士生 Moayed Haji Ali 在 CVPR 上展示其作品并展示海报。
这些模型的训练方式也导致了这个问题。
“如果你只在具有特定分辨率的图像上训练模型，那么它们只能生成具有该分辨率的图像，”计算机科学副教授 Vicente Ordóñez-Román 说道，他为 Haji Ali 和电气与计算机工程助理教授 Guha Balakrishnan 提供工作建议。
Ordóñez-Román 解释说，这是人工智能特有的一个问题，称为过度拟合，即人工智能模型过于擅长生成与其训练数据相似的数据，但不能偏离这些参数太远。
Ordóñez-Román 说：“你可以通过在更多种类的图像上训练模型来解决这个问题，但这很昂贵，并且需要大量的计算能力——数百个，甚至数千个图形处理单元。”
据哈吉·阿里介绍，扩散模型使用的数字噪声可以转化为具有两种数据类型的信号：局部和全局。局部信号包含像素级细节信息，如眼睛的形状或狗皮毛的纹理。全局信号则更多地包含图像的整体轮廓。
左侧图片采用标准方法生成，右侧图片采用 ElasticDiffusion 生成。两幅图片的提示都是：“想象一幅肖像，一只可爱的科学家猫头鹰穿着蓝灰色的衣服，宣布他们最新的突破性发现。他的眼睛是浅棕色的。他的衣着简单而庄重。
“扩散模型需要非正方形纵横比帮助的一个原因是，它们通常将局部和全局信息打包在一起，”哈吉·阿里 (Haji Ali) 表示，他在加入莱斯大学奥尔多涅斯-罗曼 (Ordóñez-Román) 的研究小组攻读博士学位之前，曾致力于合成人工智能生成的视频中的运动。“当模型试图复制这些数据以解释非正方形图像中的额外空间时，就会导致视觉缺陷。”
Haji Ali 论文中的 ElasticDiffusion 方法采用了不同的方法来创建图像。ElasticDiffusion 不会将两个信号打包在一起，而是将局部和全局信号分为条件和非条件生成路径。它从非条件模型中减去条件模型，从而获得包含全局图像信息的分数。
之后，将具有局部像素级细节的无条件路径以象限形式应用于图像，一次填充一个方块的细节。全局信息 — 图像的长宽比应该是多少以及图像是什么（狗、跑步的人等） — 保持独立，因此 AI 不会混淆信号和重复数据。无论长宽比如何，结果都是更清晰的图像，不需要额外的训练。
Ordóñez-Román 说：“这种方法是一种成功的尝试，它利用模型的中间表示来扩大其规模，从而获得全局一致性。”
与其他扩散模型相比，ElasticDiffusion 的唯一缺点是时间。目前，Haji Ali 的方法需要 6-9 倍的时间来制作图像。目标是将其缩短到与其他模型（如 Stable Diffusion 或 DALL-E）相同的推理时间。
“我希望这项研究能够定义......为什么扩散模型会产生这些更重复的部分并且无法适应这些不断变化的长宽比，并提出一个可以适应任何长宽比的框架，而不管训练如何，在同一推理时间，”哈吉·阿里说。

页: [1]

NewCET's Archiver

新的研究可能会让奇怪的人工智能图像成为过去