找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 25|回复: 0

测试大型语言模型中泄漏的常用方法可能存在缺陷

[复制链接]

3018

主题

0

回帖

6036

积分

管理员

积分
6036
发表于 2024-11-19 15:30:53 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
大型语言模型无处不在,包括在您用来阅读本文的设备上的应用程序后台运行的模型。文本和电子邮件中的自动完成建议、Gemni、Copilot 和 ChatGPT 编写的查询响应以及 DALL-E 生成的图像都是使用 LLM 构建的。
它们都是根据真实文档和图像进行训练的。
弗吉尼亚大学工程与应用科学学院的计算机安全专家 David Evans 和他的同事最近报告称,人工智能开发人员用来测试法学硕士的训练数据是否存在泄露风险的常用方法并不像人们想象的那么有效。该研究结果发表在arXiv预印本服务器上。
该论文于上个月在语言建模会议上发表,其摘要中指出,“我们发现,在不同的 LLM 规模和领域中,对于大多数设置而言,MIA 的表现仅仅比随机猜测好一点。”
MIA 是什么?泄漏?
在创建大型语言模型时,开发人员基本上采用真空吸尘器方法。他们尽可能多地吸收文本,通常是从互联网的抓取部分以及更私密的来源(例如电子邮件或其他数据存储库)中获取文本,以训练他们的人工智能应用程序了解他们工作所在的世界的属性。
对于训练数据的安全性来说,这一点很重要,因为训练数据可能包括数百万互联网用户发布的文字或图像。
无论是对于内容创作者还是对于培养法学硕士的人来说,出现漏洞的可能性都是很大的。
埃文斯是弗吉尼亚大学安全研究小组的计算机科学教授,也是这项研究的共同作者,他解释说,会员推理攻击(MIA)是人工智能开发人员用来衡量信息暴露风险(即泄密)的主要工具。
埃文斯和最近毕业的博士生安舒曼·苏里(Anshuman Suri)——该论文的第二作者,现为东北大学的博士后研究员——与华盛顿大学的研究人员合作开展了这项研究。
论文第一作者之一安舒曼·苏里 (Anshuman Suri) 现在是东北大学的博士后研究员。弗吉尼亚大学的研究人员与华盛顿大学的研究人员合作开展了这项研究。(供图)
埃文斯解释说,法学硕士成员推理测试的主要价值在于隐私审计。“这是一种衡量模型泄露了多少特定训练数据信息的方法。
例如,使用对抗性软件来评估一款应用程序的产品,该应用程序要求生成一位教授以艺术家莫奈的“风格”教学生的图像,这可能会导致产生推论,即莫奈的一幅桥梁画作协助了人工智能的训练。
Suri 补充道:“MIA 还用于测试模型是否逐字记忆了文本,如果是,那么记忆的程度如何。”
考虑到可能承担的法律责任,开发商希望了解其基础管道的坚固程度。
LLM 有多私密?MIA 有多有效?
研究人员对五种常用的 MIA 进行了大规模评估。所有对抗工具均在流行的开源语言建模数据集“the Pile”上进行训练。一个名为 EleutherAI 的非营利研究小组于 2020 年 12 月公开发布了大型语言模型集合。
微软和 Meta 以及斯坦福等主要大学都已经在数据集上训练了选定应用程序的 LLM。
训练数据中有什么?数据子集来自维基百科条目、PubMed 摘要、美国专利商标局背景、YouTube 字幕、Google DeepMind 数学等,总共代表了 22 个热门、信息丰富的网站。
尽管研究人员可以根据他们可能存在的伦理问题类型,使用 Eleuther 的工具来改进模型,但 Pile 并未根据谁同意来进行过滤。
“我们发现,当前对 LLM 进行成员推理攻击的方法实际上并不能很好地衡量成员推理,因为它们难以为实验定义一组具有良好代表性的非成员候选人,”Evans 说。
原因之一是,与其他类型的数据不同,语言的流动性可能导致对数据集成员构成的模糊性。
“问题在于,语言数据不像用于训练传统模型的记录,因此很难定义什么是训练成员,”他说,并指出句子可能基于词汇选择的细微变化而在含义上有微妙的相似之处或巨大差异。
“找到来自同一分布的候选非会员也非常困难,而且使用训练时间截止值很容易出错,因为语言的实际分布总是在变化。”
埃文斯和他的同事断言,这就是为什么过去发表的研究显示 MIA 是有效的,但事实上却证明了分布推断。
论文指出,这种差异“可以归因于分布变化,例如,会员和非会员似乎来自同一领域,但时间范围不同”。
他们的基于 Python 的开源研究现已在名为 MIMIR 的总体项目下发布,以便其他研究人员可以进行更具启发性的成员推理测试。
担心?相对风险仍然较低
迄今为止的证据表明,预训练数据中单个记录的推理风险很低,但没有保证。
埃文斯说:“我们预计 LLM 的推理风险较小,因为训练语料库的规模非常庞大,而且训练方式使得模型在训练中通常只会看到单个文本几次。”
同时,这些类型的开源 LLM 的交互特性确实为未来发起更强大的攻击开辟了更多途径。
“然而,我们确实知道,如果对手使用现有的 LLM 来训练他们自己的数据,即所谓的微调,那么他们自己的数据比模型原始训练阶段看到的数据更容易出错,”Suri 说。
研究人员的底线是,衡量 LLM 隐私风险具有挑战性,而人工智能社区才刚刚开始学习如何做到这一点。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-12-4 02:03 , Processed in 0.026497 second(s), 21 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表