“交叉幻觉”：为什么人工智能很难理解六岁小孩不能当医生或领取养老金

Josiah02 · 发表于 2024-8-1 08:27:02

　　当你去医院做血液检查时，检查结果会被放入一个数据集，并与其他患者的结果和人口数据进行比较。这样医生就可以将你（你的血液、年龄、性别、健康史、扫描等）与其他患者的结果和历史进行比较，从而预测、管理和开发新的治疗方法。
　　几个世纪以来，这一直是科学研究的基石：发现问题、收集数据、寻找模式并建立模型来解决它。人们希望人工智能（AI）——一种利用数据建立模型的机器学习——能够比人类更快、更有效、更准确地完成这些工作。
　　然而，训练这些人工智能模型需要大量的数据，以至于其中一些数据必须是合成的——不是来自真人的真实数据，而是重现现有模式的数据。大多数合成数据集本身都是由机器学习人工智能生成的。
　　图像生成器和聊天机器人的误差很容易被发现，但合成数据也会产生幻觉——结果不太可能、有偏见或根本不可能。与图像和文本一样，它们可能很有趣，但这些系统在公共生活的所有领域广泛使用意味着危害的可能性是巨大的。
　　什么是合成数据？
　　AI 模型需要的数据比现实世界所能提供的多得多。合成数据提供了一种解决方案——生成式 AI，它检查真实数据集中的统计分布，并创建一个新的合成数据集来训练其他 AI 模型。
　　这种合成的“伪”数据与原始数据相似但不完全相同，这意味着它也可以确保隐私，避开数据监管，并可以自由共享或分发。
　　合成数据还可以补充真实数据集，使其足够大以训练 AI 系统。或者，如果真实数据集存在偏差（例如女性数据太少，或者过多地代表开衫而不是套头衫），合成数据可以平衡它。关于合成数据与原始数据的偏差程度，目前仍存在争议。
　　明显的遗漏
　　如果没有适当的管理，制作合成数据的工具将始终过度代表数据集中占主导地位的事物，而低估（甚至忽略）不太常见的“边缘情况”。
　　这最初激发了我对合成数据的兴趣。医学研究已经对女性和其他少数群体缺乏代表性，我担心合成数据会加剧这个问题。因此，我与机器学习科学家Saghi Hajisharif 博士合作，探索边缘案例消失的现象。
　　在我们的研究中，我们使用了一种称为 GAN 的 AI 来创建 1990 年美国成人人口普查数据的合成版本。正如预期的那样，合成数据集中缺少极端情况。在原始数据中，我们有 40 个原籍国，但在合成版本中，只有 31 个——合成数据遗漏了来自 9 个国家的移民。
　　一旦我们知道了这个错误，我们就可以调整方法并将其纳入新的合成数据集。这是可能的，但必须经过仔细的策划。
　　“交叉幻觉”——人工智能创造了不可能的数据
　　然后我们开始注意到数据中的其他东西——交叉幻觉。
　　交叉性是性别研究中的一个概念。它描述了权力动态，这种动态以不同的方式对不同的人产生歧视和特权。它不仅关注性别，还关注年龄、种族、阶级、残疾等，以及这些因素在任何情况下如何“交叉”。
　　这可以告诉我们如何分析合成数据（所有数据，而不仅仅是人口数据），因为数据集的交叉方面会产生数据所描述的复杂组合。
　　在我们的合成数据集中，不同类别的统计表现相当不错。例如，合成数据中的年龄分布与原始数据相似。不完全相同，但很接近。这很好，因为合成数据应该与原始数据相似，而不是完全复制原始数据。
　　然后，我们分析了合成数据的交叉点。一些更复杂的交叉点也被重现了。例如，在我们的合成数据集中，年龄-收入-性别的交叉点被相当准确地重现了。我们称这种准确性为“交叉保真度”。
　　但我们还注意到，合成数据中有 333 个数据点被标记为“夫妻单身”——这是一种交叉幻觉。人工智能并没有学到（或被告知）这是不可能的。其中，超过 100 个数据点是“年收入低于 50,000 美元的未婚丈夫”，这是一种原始数据中不存在的交叉幻觉。
　　另一方面，原始数据包括多名“从事技术支持工作的丧偶女性”，但在合成版本中却完全没有出现。
　　这意味着我们的合成数据集可用于研究年龄-收入-性别问题（存在交叉保真度），但如果人们对“从事技术支持工作的丧偶女性”感兴趣，则不适用。而且，人们应该注意结果中的“从未结婚的丈夫”。
　　最大的问题是：这一切何时结束？这些幻觉是 2 部分和 3 部分的交集，但 4 部分交集呢？或 5 部分？在什么时候（以及出于什么目的）合成数据会变得无关紧要、具有误导性、无用或危险？
　　拥抱交叉幻觉
　　结构化数据集之所以存在，是因为电子表格中各列之间的关系告诉我们一些有用的信息。还记得血液测试吗？医生想知道你的血液与正常血液、其他疾病和治疗结果相比如何。这就是我们首先组织数据的原因，几个世纪以来我们一直这样做。
　　然而，当我们使用合成数据时，交叉幻觉总是会发生，因为合成数据必须与原始数据略有不同，否则它就只是原始数据的副本。因此，合成数据需要幻觉，但只能是正确类型的幻觉——放大或扩展数据集，但不会创建不可能、误导或有偏见的东西。
　　交叉幻觉的存在意味着一个合成数据集无法满足多种用途。每个用例都需要带有标记幻觉的定制合成数据集，而这需要一个识别系统。
　　构建可靠的人工智能系统
　　为了让人工智能值得信赖，我们必须知道它的训练数据中存在哪些交叉幻觉，尤其是当它被用来预测人们的行为方式，或用来监管、治理、治疗或监督我们时。我们需要确保它们没有接受过危险或误导性的交叉幻觉训练——就像一个六岁的医生领取养老金一样。
　　但是，如果合成数据集被随意使用，会发生什么情况呢？目前还没有标准的方法来标记它们，而且它们经常与真实数据混淆。当一个数据集被共享给其他人使用时，不可能知道它是否可以信任，也不可能知道什么是幻觉，什么不是。我们需要明确的、普遍可识别的方法来识别合成数据。
　　交叉幻觉可能不像一只长着 15 个手指的手或建议在披萨上涂胶水那样有趣。它们是无聊、毫无吸引力的数字和统计数据，但它们会影响我们所有人——迟早，合成数据会传播到各处，而且从本质上讲，它总是包含交叉幻觉。有些是我们想要的，有些我们不想，但问题在于如何区分它们。我们需要在为时已晚之前实现这一点。

账号		自动登录	找回密码
密码			立即注册