研究人员开发出一种新的生成对抗网络模型，可以稳定训练和性能

Josiah02 · 发表于 2024-10-18 08:35:02

近年来，人工智能 (AI) 和深度学习模型发展迅速，变得触手可及。这使得人们，甚至那些没有专业知识的人，也能用人工智能完成各种任务。在这些模型中，生成对抗网络 (GAN) 因其在生成具有与训练数据相同特征的新数据实例方面的出色表现而脱颖而出，使其在生成图像、音乐和文本方面特别有效。
GAN 由两个神经网络组成，即一个生成器和一个鉴别器，生成器从随机噪声开始创建新的数据分布，鉴别器检查生成的数据分布是“真实的”（与训练数据匹配）还是“假的”。随着训练的进行，生成器在生成真实分布方面不断进步，而鉴别器则能够识别生成的数据是假的。
GAN 使用损失函数来衡量假分布与真实分布之间的差异。然而，这种方法可能会导致梯度消失和不稳定学习等问题，直接影响稳定性和效率。尽管在改进 GAN 方面取得了相当大的进展，包括结构修改和损失函数调整，但梯度消失和模式崩溃等挑战（生成器产生的多样性有限）仍然限制了它们的适用性。
为了解决这些问题，由韩国中央大学电气与电子工程学院助理教授李敏赫领导的研究小组开发了一种新颖的策略。“想象一下教一位艺术家画风景画。一致的指导可能会导致他们创作出相似的场景，这种现象在机器学习中称为模式崩溃。为了防止这种情况，我们的 PMF-GAN 模型改进了鉴别器的功能，对产生过于相似输出的生成器进行惩罚，从而促进多样性，”李博士解释说。
他们的研究结果于 2024 年 10 月发表在《应用软计算》杂志上。
PMF-GAN 框架引入了两项关键增强功能。首先，它采用内核优化来改进鉴别器的能力，在解决模型崩溃和梯度消失问题方面具有显著优势。内核是将数据转换为更高维空间的数学函数，即使在复杂数据中也更容易检测模式。鉴别器的输出通过核函数处理，产生核密度估计 (KDE)。
其次，PMF-GAN 将一种称为直方图变换的数学技术应用于 KDE 输出，从而可以更直观地分析结果。在训练期间，该模型会最小化核直方图变换后的假分布与真实分布之间的差异，这种度量称为 PMF 距离。
具体来说，这种方法允许使用各种数学距离函数和核函数。这种灵活性使 PMF-GAN 能够适应不同的数据类型和学习目标。此外，PMF-GAN 可以集成到现有的改进型 GAN 架构中，以获得更好的性能。
在实验中，PMF-GAN 在多个数据集的视觉质量和评估指标方面均优于多个基线模型。对于 Animal FacesHQ 数据集，与传统的 WGAN-GP 模型相比，其初始得分提高了 56.9%，Fréchet 初始距离 (FID) 得分提高了 61.5%。
“PMF-GAN 所展现出的灵活性和性能改进为在各种技术和数字领域生成合成数据开辟了新的可能性。在医疗保健领域，它将带来更稳定、更多样化的图像生成。它还能为电影、视频游戏和虚拟现实体验提供更逼真、更多样化的计算机生成视觉效果，”Lee 博士说道。
“随着人工智能生成的内容在我们的日常生活中变得越来越普遍，我们的方法提高了内容的质量和多样性，并将确保人工智能继续成为人类创造力和解决问题的宝贵工具。”

账号		自动登录	找回密码
密码			立即注册