什么是“模型崩溃”?一位专家解释有关即将到来的人工智能末日的传言
人工智能(AI)的预言家和新闻贩子们预测生成式人工智能炒作的终结,并谈论即将到来的灾难性的“模型崩溃”。但这些预测有多现实?模型崩溃到底是什么?
“模型崩溃”这一概念在2023 年就被讨论过,但最近才开始流行,它指的是一种假设情景,即未来的人工智能系统由于互联网上人工智能生成的数据的增加而变得越来越愚蠢。
数据需求
现代人工智能系统是利用机器学习构建的。程序员设置了底层数学结构,但真正的“智能”来自于训练系统模仿数据中的模式。
但并非任何数据都行。当前的生成式人工智能系统需要大量高质量数据。
为了获取这些数据,OpenAI、谷歌、Meta 和 Nvidia 等大型科技公司不断搜索互联网,收集数 TB 的内容来提供给机器。但自2022 年广泛可用且实用的生成式人工智能系统问世以来,人们越来越多地上传和分享部分或全部由人工智能制作的内容。
2023 年,研究人员开始怀疑是否可以只依赖人工智能创建的数据进行训练,而不是依赖人类生成的数据。
实现这一目标的动机非常强烈。除了在互联网上激增之外,人工智能制作的内容比人类数据获取成本要低得多。大规模收集人工智能制作的内容在道德 和 法律上 也不存在任何问题。
然而,研究人员发现,如果没有高质量的人类数据,那么使用人工智能数据进行训练的人工智能系统会变得越来越笨,因为每个模型都会从前一个模型中学习。这就像近亲繁殖问题的数字版本。
这种“反刍训练”似乎会导致模型行为的质量和多样性下降。这里的质量大致是指乐于助人、无害和诚实的某种组合。多样性是指反应的变化,以及哪些人的文化和社会观点体现在人工智能输出中。
简而言之:过度使用人工智能系统,我们可能会污染最初使它们有用的数据源。
页:
[1]