Josiah02 发表于 2024-7-30 09:06:38

幻影数据可以向版权持有者显示他们的作品是否在人工智能训练数据中

  受到 20 世纪地图制作者的启发,帝国理工学院的研究人员展示了一种在法学硕士课程中识别版权持有者作品的新方法。
  该技术于本周在维也纳举行的国际机器学习会议上进行了展示,并在arXiv服务器上的预印本中进行了详细介绍。
  生成式人工智能正在席卷全球,并改变了数百万人的日常生活。
  然而,如今,人工智能在训练数据方面往往建立在“不可靠的”法律基础之上。现代人工智能模型,如大型语言模型 (LLM),需要大量来自互联网的文本、图像和其他形式的内容来实现其令人印象深刻的功能。
  在伦敦帝国理工学院专家发表的一篇新论文中,研究人员提出了一种检测数据用于人工智能训练的机制。
  他们希望,他们提出的方法将成为快速发展的生成式人工智能领域迈向更大开放性和透明度的一步,并帮助作者更好地了解他们的文本是如何使用的。
  首席研究员、帝国理工学院计算机系的 Yves-Alexandre de Montjoye 博士表示:“20 世纪早期的地图制作者在地图上绘制了虚拟城镇以检测非法复制品,我们受到他们的启发,研究如何将‘版权陷阱’(独特的虚构句子)注入原始文本,从而实现经过训练的 LLM 中的内容可检测性。”
  首先,内容所有者会在其文档集合(例如新闻文章)中多次重复版权陷阱。然后,如果 LLM 开发人员抓取数据并在其上训练模型,数据所有者将能够通过观察模型输出中的不规则性来自信地证明训练。
  该提案最适合在线出版商,他们可以在新闻文章中隐藏版权陷阱句,使得读者看不到,但数据抓取工具却有可能发现它。
  然而,de Montjoye 博士强调了 LLM 开发人员如何开发技术来移除陷阱并避免被发现。由于陷阱以多种不同的方式嵌入在新闻文章中,成功移除所有陷阱可能需要大量工程资源,以领先于新的嵌入方式。
  为了验证该方法的有效性,他们与法国的一个团队合作,训练了一个“真正双语”的英法 1.3B 参数 LLM,将各种版权陷阱注入现实世界最先进的参数高效语言模型的训练集中。研究人员认为,他们的实验成功为 LLM 培训领域提供了更好的透明度工具。
  同样来自伦敦帝国理工学院计算机系的合著者 Igor Shilov 补充道:“人工智能公司越来越不愿意分享有关其训练数据的任何信息。虽然GPT-3 和 LLaMA(分别由 OpenAI 和 Meta AI 发布的旧模型)的训练数据组成是公开的,但对于较新的模型 GPT-4 和 LLaMA-2 来说,情况已不再如此。
  “法学硕士开发人员几乎没有动力公开他们的培训过程,导致缺乏透明度(从而导致公平的利润分享),因此拥有检查培训过程的工具比以往任何时候都更加重要。”
  同样来自伦敦帝国理工学院计算机系的合著者 Matthieu Meeus 表示:“我们认为,人工智能训练透明度问题以及对内容创作者公平补偿的讨论对于未来以负责任的方式构建人工智能非常重要。我们希望这项关于版权陷阱的研究有助于找到可持续的解决方案。”

页: [1]
查看完整版本: 幻影数据可以向版权持有者显示他们的作品是否在人工智能训练数据中