在人工智能聊天机器人的“狂野西部”，与种族和种姓有关的微妙偏见往往不受控制

Josiah02 · 发表于前天 19:03

最近，LinkedIn 发布了招聘助理，这是一款人工智能“代理”，可执行招聘人员工作中最重复的部分，包括在面试前后与求职者互动。LinkedIn 的机器人是越来越多部署大型语言模型与求职者互动的工具中最为引人注目的例子，例如 Tombo.ai 和 Moonhub.ai。
鉴于招聘的重要性（与推荐袜子的系统相比），华盛顿大学的研究人员试图探索偏见在此类系统中的表现形式。虽然许多著名的大型语言模型(LLM)（例如 ChatGPT）都内置了防护装置来捕捉明显的偏见（例如辱骂），但系统性偏见仍然可能在聊天机器人交互中悄然出现。此外，由于许多系统都是在西方国家创建的，因此它们的防护装置并不总是能识别非西方的社会概念，例如南亚的种姓。
研究人员利用社会科学方法来检测偏见，并开发了一个七指标系统，他们用这个系统在模拟工作筛选中测试了八个不同的法学硕士课程是否存在种族和种姓偏见。他们发现，八个模型中有七个在互动中生成了大量有偏见的文本——尤其是在讨论种姓时。开源模型的表现远不如两个专有的 ChatGPT 模型。
该团队于 11 月 14 日在迈阿密举行的自然语言处理实证方法会议上展示了其研究成果。
华盛顿大学信息学院副教授、资深作者 Tanu Mitra 表示：“当伤害在西方背景下是明显而普遍的时候，比如一条信息中包含种族歧视的言论，那么可用的捕捉有害反应的工具就会非常有效。”
“但我们想研究一种能够更好地检测隐性伤害的技术。我们希望在一系列模型中进行研究，因为这几乎就像我们身处法学硕士的狂野西部。有些模型任何人都可以用来建立一家初创公司并完成一项敏感任务，比如招聘，但我们几乎不知道任何给定模型都设置了哪些护栏。”
为了对这些隐性伤害进行分类，该团队借鉴了社会科学理论，创建了隐性伤害和社会威胁 (CHAST) 框架。它包含七个指标，包括“能力威胁”，即破坏群体能力的一种方式，或“象征性威胁”，即当群体成员将群体外的人视为对其价值观、标准或道德的威胁时发生的威胁。
随后，该团队利用八个语言模型（包括两个来自 OpenAI 的 ChatGPT 模型和两个来自 Meta 的开源 Llama 模型）生成了 1,920 段有关种族（黑人和白人）和种姓（婆罗门，高种姓，达利特，低种姓）的对话。这些讨论模仿了同事之间关于招聘四种职业的谈话：软件开发人员、医生、护士和教师。
该团队共同使用 CHAST 对其中 100 条对话进行了注释，并利用这组注释训练了 LLM，以查找剩余对话中的隐蔽危害。
“我们在模型的默认设置下生成了这些对话，”华盛顿大学信息学院博士生、论文共同第一作者 Preetam Dammu 说道。“许多研究使用‘即时攻击’来欺骗模型，迫使其生成有害内容。但大多数人不会用这种方法来做出招聘决定。相反，我们只是提出这些敏感话题，让法学硕士来完成对话，但我们仍然发现，大多数对话都生成了大量有害内容。”
总体而言，该团队发现，69% 的有关种姓的对话和 48% 的总体对话包含有害内容。例如，一个模型在写“你知道，我们的团队大部分是白人，他可能难以与他们沟通”时，未能通过能力威胁指标。另一个模型在写“是的，当然。让我们获得一堆多样性代币，然后就此结束”时，未能通过贬损威胁指标。
这八个模型产生的危害并不相同。与其他六个开源模型相比，这两个 ChatGPT 模型产生的危害性对话（尤其是在种族问题上）明显较少。但即使是 ChatGPT 模型也不尽相同：一个模型没有产生关于种族的有害内容，但关于种姓的内容明显较多，而另一个模型产生的关于种族和种姓的内容相对较少。
“我们希望这样的发现可以为政策提供参考，”论文共同作者、华盛顿大学保罗·艾伦计算机科学与工程学院硕士生 Hayoung Jung 表示。“为了规范这些模型，我们需要有彻底的评估方法，以确保它们对每个人都是安全的。人们非常关注西方背景，比如种族和性别，但世界上还有许多其他丰富的文化概念，尤其是在全球南方，需要更多关注。”
研究团队表示，这项研究应该进一步扩展，以考察更多的职业和文化概念。研究还应该扩展，以了解模型如何处理交叉身份。

账号		自动登录	找回密码
密码			立即注册