研究发现，用于训练大型语言模型的数据集通常缺乏透明度

Josiah02 · 发表于 2024-9-2 14:47:57

为了训练更强大的大型语言模型，研究人员使用大量数据集，这些数据集融合了来自数千个网络来源的各种数据。但是，随着这些数据集被组合并重新组合成多个集合，有关其来源和使用限制的重要信息通常会在混乱中丢失或混淆。
这不仅引发法律和道德问题，还会损害模型的性能。例如，如果数据集被错误分类，那么为某项任务训练机器学习模型的人可能会在不知情的情况下使用并非为该任务设计的数据。
此外，来自未知来源的数据可能包含偏见，导致模型在部署时做出不公平的预测。
为了提高数据透明度，来自麻省理工学院等机构的多学科研究团队对热门托管网站上的 1,800 多个文本数据集进行了系统性审核。他们发现，这些数据集中有 70% 以上省略了一些许可信息，而约 50% 的信息存在错误。
基于这些见解，他们开发了一种用户友好的工具，称为数据来源浏览器，可以自动生成数据集的创建者、来源、许可证和允许用途的易于阅读的摘要。
麻省理工学院教授、麻省理工学院媒体实验室人类动力学小组负责人、该项目开放获取论文合著者亚历克斯·“桑迪”·彭特兰 (Alex “Sandy” Pentland) 表示：“这些类型的工具可以帮助监管者和从业者就人工智能的部署做出明智的决定，并进一步推动人工智能的负责任发展。”
数据来源浏览器可以帮助 AI 从业者构建更有效的模型，使他们能够选择适合其模型预期用途的训练数据集。从长远来看，这可以提高 AI 模型在现实世界中的准确性，例如用于评估贷款申请或响应客户查询的模型。
“了解人工智能模型的能力和局限性的最佳方法之一是了解它是基于哪些数据进行训练的。当你对数据来源产生错误归因和混淆时，就会出现严重的透明度问题，”麻省理工学院人类动力学小组研究生、哈佛法学院法学博士候选人、论文共同第一作者罗伯特·马哈里 (Robert Mahari) 表示。
与 Mahari 和 Pentland 一起撰写这篇论文的还有媒体实验室的研究生 Shayne Longpre，Cohere for AI 研究实验室负责人 Sara Hooker，以及麻省理工学院、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons 和 Tidelift 的其他研究人员。
注重微调
研究人员经常使用一种称为微调的技术来提高大型语言模型的功能，该模型将用于特定任务，例如问答。为了进行微调，他们精心构建了精选数据集，旨在提高模型在这项任务上的表现。
麻省理工学院的研究人员专注于这些微调数据集，这些数据集通常由研究人员、学术组织或公司开发并获得特定用途的许可。
当众包平台将此类数据集聚合成更大的集合，供从业者进行微调时，一些原始许可信息往往会被遗忘。
“这些许可证应该很重要，而且应该具有强制执行力，”马哈里说。
例如，如果数据集的许可条款错误或缺失，有人可能会花费大量金钱和时间来开发模型，但后来他们可能会被迫放弃这个模型，因为一些训练数据包含私人信息。
“人们最终可能会训练模型，但他们甚至不了解这些模型的能力、问题或风险，而这些最终源于数据，”Longpre 补充道。
在开始这项研究时，研究人员正式将数据来源定义为数据集的来源、创建和许可历史以及其特征的组合。在此基础上，他们开发了一个结构化的审计程序，以追踪来自流行在线存储库的 1,800 多个文本数据集集合的数据来源。
在发现其中超过 70% 的数据集包含“未指定”的许可证，遗漏了大量信息后，研究人员逆向寻找以填补空白。通过他们的努力，他们将“未指定”许可证的数据集数量减少到 30% 左右。
他们的工作还表明，正确的许可证通常比存储库分配的许可证更为严格。
此外，他们发现几乎所有数据集创建者都集中在全球北部，如果模型在不同地区部署，这可能会限制其能力。例如，一个主要由美国人和中国人创建的土耳其语数据集可能不包含任何具有文化意义的方面，Mahari 解释道。
他说：“我们几乎欺骗自己，认为数据集比实际情况更加多样化。”
有趣的是，研究人员还发现对 2023 年和 2024 年创建的数据集的限制急剧增加，这可能是由于学术界担心他们的数据集可能被用于非预期的商业目的。
用户友好型工具
为了帮助其他人无需人工审核即可获得这些信息，研究人员构建了数据来源浏览器。除了根据某些标准对数据集进行排序和过滤外，该工具还允许用户下载数据来源卡，该卡提供了数据集特征的简洁、结构化概述。
“我们希望这一步不仅可以了解形势，还可以帮助人们在未来对所要训练的数据做出更明智的选择，”Mahari 说。
未来，研究人员希望扩大分析范围，调查包括视频和语音在内的多模态数据的数据来源。他们还想研究作为数据源的网站的服务条款如何在数据集中得到体现。
在扩大研究范围的同时，他们也在与监管机构联系，讨论他们的发现以及微调数据的独特版权影响。
“当人们创建和发布这些数据集时，我们从一开始就需要数据来源和透明度，以便其他人更容易获得这些见解，”Longpre 说。

账号		自动登录	找回密码
密码			立即注册