打破 MAD：生成式人工智能可能会打破互联网

Josiah01 发表于 2024-7-31 21:14:04

　　OpenAI 的 GPT-4o 或 Stability AI 的 Stable Diffusion 等生成式人工智能 (AI) 模型在创建新文本、代码、图像和视频方面的能力令人惊叹。然而，训练它们需要大量数据，开发人员已经面临供应限制，并且可能很快就会耗尽所有训练资源。
　　在数据稀缺的背景下，使用合成数据来训练未来几代人工智能模型似乎对大型科技公司来说是一个诱人的选择，原因如下：人工智能合成数据比现实世界数据更便宜，而且供应几乎无限；它带来的隐私风险更少（例如医疗数据的情况）；在某些情况下，合成数据甚至可以提高人工智能的性能。
　　然而，莱斯大学数字信号处理小组最近的研究发现，合成数据的使用可能会对生成式人工智能模型的未来迭代产生重大的负面影响。
　　“当这种合成数据训练不可避免地重复时，就会出现问题，形成一种反馈回路——我们称之为自噬或‘自我消耗’回路，”莱斯大学电气与计算机工程系 C. Sidney Burrus 教授理查德·巴拉尼克 (Richard Baraniuk) 说道。“我们的团队对这种反馈回路进行了广泛的研究，坏消息是，即使经过几代这样的训练，新模型也可能出现不可挽回的损坏。一些人称之为‘模型崩溃’——最近该领域的同事在大型语言模型 (LLM) 的背景下也这样称呼。然而，我们发现‘模型自噬障碍’ (MAD) 这个术语更贴切，类似于疯牛病。”
　　疯牛病是一种致命的神经退行性疾病，会影响奶牛，人类也因食用受感染的肉类而患上疯牛病。20 世纪 80 至 90 年代的一次大规模疫情引起了人们的注意，疯牛病的蔓延是由于人们给奶牛喂食屠宰后同类的加工剩菜而导致的——因此出现了“自噬”一词，该词源于希腊语中的 auto-，意思是“自我”，phagy 意思是“吃”。
　　巴拉努克表示： “我们在 5 月份国际学习表征会议 (ICLR) 上发表的一篇论文中记录了我们对 MADness 的研究结果。”
　　这项名为“自我消耗生成模型发疯”的研究是第一项关于人工智能自噬的同行评审研究，重点研究流行的 DALL·E 3、Midjourney 和 Stable Diffusion 等生成图像模型。
　　巴拉纽克表示：“我们选择研究视觉 AI 模型，以更好地凸显自噬训练的缺点，但正如其他团体指出的那样，同样的疯牛病腐败问题也出现在 LLM 中。”
　　互联网通常是生成式 AI 模型训练数据集的来源，因此随着合成数据在网上激增，自耗循环很可能会在每一代新模型中出现。为了深入了解这种情况可能如何发生的不同场景，Baraniuk 和他的团队研究了三种自耗训练循环的变体，旨在真实地表示真实数据和合成数据如何组合成生成式模型的训练数据集：
　　完全合成循环——生成模型的连续几代都采用从前几代的输出中采样的完全合成数据。
　　合成增强循环——模型每一代的训练数据集都包括从前几代采样的合成数据和一组固定的真实训练数据的组合。
　　新鲜数据循环——模型的每一代都根据前几代的合成数据和一组新的真实训练数据的混合进行训练。
　　循环的逐步迭代表明，随着时间的推移，在缺乏足够多的新鲜真实数据的情况下，模型将生成越来越扭曲的输出，这些输出要么缺乏质量，要么缺乏多样性，或者两者都缺乏。换句话说，新鲜数据越多，人工智能就越健康。
　　逐一比较模型连续生成的图像数据集，可以描绘出一幅令人毛骨悚然的 AI 未来图景。由人脸组成的数据集越来越多地出现网格状疤痕（作者称之为“生成伪影”），或者看起来越来越像同一个人。由数字组成的数据集变成了难以辨认的涂鸦。
　　“我们的理论和实证分析使我们能够推断出，当生成模型变得无处不在并在自我消耗循环中训练未来模型时，可能会发生什么，”巴拉努克说。“一些后果是显而易见的：如果没有足够的新鲜真实数据，未来的生成模型注定会陷入疯狂。”
　　为了使这些模拟更加逼真，研究人员引入了一个抽样偏差参数来解释“挑选” - 用户倾向于数据质量而不是多样性，即在数据集中图像和文本类型的多样性中权衡看起来或听起来不错的图像或文本。
　　挑选的动机是数据质量在更多次模型迭代中得以保持，但这是以多样性进一步下降为代价的。
　　“一个世界末日的场景是，如果在很多代中都不受控制，MAD 可能会毒害整个互联网的数据质量和多样性，”巴拉纽克说。“除此之外，即使在短期内，人工智能自噬也必然会带来迄今为止尚未见过的意外后果。”
　　除了巴拉尼克之外，该研究的作者还包括莱斯大学博士生西娜·阿莱莫哈默德 (Sina Alemohammad)、若苏埃·卡斯科-罗德里格斯 (Josue Casco-Rodriguez)、艾哈迈德·伊姆蒂亚兹·胡马云 (Ahmed Imtiaz Humayun)、侯赛因·巴巴伊 (Hossein Babaei)、莱斯大学博士生洛伦佐·卢齐 (Lorenzo Luzi)、莱斯大学博士生、现斯坦福大学博士后丹尼尔·勒琼 (Daniel LeJeune) 以及西蒙斯大学博士后研究员阿里·西亚库希 (Ali Siahkoohi)。

页: [1]

NewCET's Archiver

打破 MAD：生成式人工智能可能会打破互联网