“开放清洗”生成式人工智能：Meta、谷歌和其他公司如何假装开放

Josiah01 · 发表于 2024-7-6 14:59:57

过去一年，声称开放的生成式人工智能系统数量急剧增加。但它们到底有多开放？新研究表明，Meta 和谷歌等公司普遍存在“洗白开放”的做法：声称开放可以赢得赞誉，但实际上却逃避审查。
鉴于欧盟《人工智能法案》对“开源”模型采取不同的监管方式，生成人工智能中什么算作开源的问题尤为重要，因此迫切需要进行实际的开放性评估。
几乎所有大型科技公司都声称提供“开放”模型，但实际上很少有公司这样做。拉德堡德大学语言研究中心的 Andreas Liesenfeld 和 Mark Dingemanse 调查了 45 个自称开放的文本和文本转图像模型。它清楚地表明了当前生成式人工智能所谓的开放性。
他们的研究成果最近在 ACM 公平、问责和透明度会议（ACM FAccT 2024 ）上发表，并在《自然》杂志的新闻简报中进行了介绍。
逃避审查
研究人员发现，Meta、微软和 Mistral 等公司策略性地使用“开放”和“开源”等术语，而实际上却几乎完全屏蔽了他们的模型，使其免受科学和监管审查。他们经常出于营销目的使用“开放”和“开源”等术语，但实际上并没有提供对源代码、训练数据、微调数据或系统架构的有意义的见解。
在之前研究的基础上，研究人员测试了 45 多个模型，这次还考虑了文本转图像生成器。他们发现，开放性分布不均，而且往往被夸大其词。相反，他们发现，像 AllenAI（与 OLMo）和 BigScience Workshop + HuggingFace（与 BloomZ）这样的小公司往往会付出更多努力来记录他们的系统并将它们开放供审查。
欧盟人工智能法案
最近出台的欧盟人工智能法案为“开源”模型提供了特殊豁免，但并未对该术语做出明确定义。这为“洗白”开放创造了动机：如果模型算作开放，那么模型提供者面临的繁重要求就会减少，公众和科学审查也会减少。Liesenfeld 表示：“这使得我们更有必要明确什么是生成式人工智能的开放性。我们认为开放性不是全有或全无的现象，而是复合的（由多种元素组成）和渐变的（有度可循）。”
尽管欧盟《人工智能法案》带来了更多紧迫性，但长期以来，人们一直认为开放性对于创新、科学和社会至关重要。它还可以通过揭开人工智能的神秘面纱来建立对人工智能的信任和理解。丁格曼斯说：“如果像 OpenAI 这样的公司声称他们的人工智能可以‘通过律师资格考试’，那么这可能令人印象深刻，也可能不令人印象深刻，这取决于训练数据的内容。”
“OpenAI 对此一直含糊其辞，可能也是为了避免法律风险，但训练数据的数量之多意味着 ChatGPT 和类似的下一个单词预测引擎可以在‘开卷’模式下进行大多数考试，这使得它们的表现不那么令人印象深刻。”
这项工作有助于为人工智能的有意义的开放性建立案例，并揭示了越来越多的 ChatGPT 替代方案。此前不久，拉德堡德大学艺术学院发布了关于生成式人工智能和研究诚信的指导意见，呼吁考虑使用生成式人工智能的研究人员提高批判性人工智能素养。

账号		自动登录	找回密码
密码			立即注册