找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 64|回复: 0

近亲繁殖、胡言乱语还是疯狂?人们对人工智能模型发出警告

[复制链接]

2883

主题

0

回帖

5766

积分

管理员

积分
5766
发表于 2024-8-6 08:20:20 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
  去年,当学者 Jathan Sadowski 试图用一个类比来描述人工智能程序如何衰败时,他想到了“哈布斯堡人工智能”这个词。
  哈布斯堡王朝曾是欧洲最强大的王朝之一,但经过几个世纪的近亲繁殖,其整个家族血脉最终土崩瓦解。
  最近的研究表明,当 ChatGPT 等产品所依赖的人工智能程序反复输入自己的数据时,也会经历类似的崩溃。
  萨多夫斯基对法新社表示:“我认为‘哈布斯堡人工智能’这个术语已经过时了”,他创造的这个词语“对于我们如何看待人工智能系统变得更加重要”。
  最终的担忧是,人工智能生成的内容可能会占领网络,这反过来可能会使聊天机器人和图像生成器变得毫无用处,并使价值万亿美元的产业陷入混乱。
  但其他专家认为,这个问题被夸大了,或者可以得到解决。
  许多公司热衷于使用所谓的合成数据来训练人工智能程序。这些人工生成的数据用于增强或替代现实世界的数据。它比人工创建的内容更便宜,但更可预测。
  澳大利亚莫纳什大学新兴技术讲师萨多夫斯基表示:“对于构建人工智能系统的研究人员和公司来说,一个悬而未决的问题是:多少合成数据才算太多。”
  '疯牛病'
  训练人工智能程序,在业界被称为大型语言模型 (LLM),涉及从互联网上抓取大量文本或图像。
  这些信息被分解成数万亿个机器可读的微小块,称为标记。
  当被问到问题时,像 ChatGPT 这样的程序会选择并组装标记,其训练数据会告诉它是最有可能适合查询的序列。
  但即使是最好的人工智能工具也会产生虚假和无稽之谈,批评者长期以来一直担心,如果模型被输入自己的输出,会发生什么。
  7 月下旬, 《自然》杂志发表的一篇题​​为《人工智能模型在递归生成的数据上训练时崩溃》的论文成为讨论的焦点。
  作者描述了模型如何快速丢弃原始数据集中较稀有的元素,并且如《自然》杂志报道的那样,输出退化为“胡言乱语”。
  一周后,莱斯大学和斯坦福大学的研究人员发表了题为《自我消耗生成模型走向疯狂》的论文,得出了类似的结论。
  他们测试了图像生成 AI 程序,并表明随着他们将 AI 生成的数据添加到底层模型中,输出变得更加通用并且充斥着不良元素。
  他们将模型崩溃称为“模型自噬障碍”(MAD),并将其与疯牛病(一种因将死牛残余物喂给其他牛而导致的致命疾病)进行了比较。
  “世界末日场景”
  这些研究人员担心人工智能生成的文本、图像和视频正在清除网络上可用的人造数据。
  莱斯大学的一位作者理查德·巴拉纽克 (Richard Baraniuk) 在一份声明中表示:“一种末日情景是,如果几代人都对 MAD 置之不理,它可能会毒害整个互联网的数据质量和多样性。”
  然而,行业数据却不为所动。
  Anthropic 和 Hugging Face 是该领域的两大领军企业,他们以采取合乎道德的技术方式而自豪,他们都向法新社表示,他们使用人工智能生成的数据来微调或过滤他们的数据集。
  Hugging Face 的机器学习工程师 Anton Lozhkov 表示,《自然》杂志的论文给出了有趣的理论观点,但其灾难场景并不现实。
  他说:“在现实中,根本不可能用多轮合成数据进行训练。”
  然而,他表示研究人员与其他人一样对互联网的现状感到沮丧。
  “互联网上很大一部分都是垃圾,”他表示,并补充说 Hugging Face 已经付出了巨大的努力来清理数据——有时甚至会丢弃 90% 的数据。
  他希望网民通过不参与生成的内容来帮助清理互联网。
  他说道:“我坚信人类将会在模型之前看到其影响并捕捉到所产生的数据。”

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-22 20:52 , Processed in 0.026008 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表