找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 73|回复: 0

使用人工智能训练人工智能:研究人员称法学硕士模型可能会崩溃

[复制链接]

2883

主题

0

回帖

5766

积分

管理员

积分
5766
发表于 2024-7-26 09:22:22 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
  《自然》杂志发表的一篇新论文指出,使用人工智能生成的数据集来训练未来几代机器学习模型可能会污染其输出,这一概念被称为“模型崩溃” 。研究表明,在几代之内,原始内容就会被不相关的废话所取代,这证明了使用可靠数据来训练人工智能模型的重要性。
  大型语言模型(LLM)等生成式 AI 工具越来越受欢迎,并且主要使用人工生成的输入进行训练。然而,随着这些 AI 模型在互联网上不断普及,计算机生成的内容可能会用于在递归循环中训练其他 AI 模型(或自身)。
  Ilia Shumailov 及其同事提出了数学模型来说明 AI 模型如何经历模型崩溃。作者表明,AI 可能会忽略训练数据中的某些输出(例如,不太常见的文本行),导致它只在数据集的一部分上进行自我训练。
  Shumailov 及其同事还研究了 AI 模型如何响应主要由人工智能创建的训练数据集。他们发现,向模型输入 AI 生成的数据会导致模型的学习能力逐代下降,最终导致模型崩溃。
  他们测试的几乎所有递归训练语言模型都倾向于显示重复的短语。例如,使用关于中世纪建筑的文本作为原始输入进行测试,到第九代时,输出是一串长耳兔。
  作者提出,模型崩溃是使用前几代创建的训练数据集的人工智能模型的必然结果。为了成功地用自己的输出训练人工智能,Shumailov 和同事认为,用人工智能生成的数据训练模型并非不可能,但必须认真对待对这些数据的过滤。
  与此同时,依赖人类生成内容的科技公司可能能够训练出比竞争对手更有效的人工智能模型。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-26 05:27 , Processed in 0.025771 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表