找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 52|回复: 0

人工智能反映人类偏见:研究揭示大型语言模型中存在“我们与他们”的倾向

[复制链接]

3297

主题

0

回帖

6594

积分

管理员

积分
6594
发表于 2024-12-13 14:52:48 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
长期以来,研究一直表明,人类容易受到“社会身份偏见”的影响——偏袒自己的群体,无论是政党、宗教还是种族,而贬低“外来群体”。一组科学家进行的一项新研究发现,人工智能系统也容易产生相同类型的偏见,揭示了超越性别、种族或宗教的根本群体偏见。
纽约大学博士后研究员、这项研究的作者之一史蒂夫·拉特杰 (Steve Rathje) 解释道:“像 ChatGPT 这样的人工智能系统可以形成与人类类似的‘我们对他们’的偏见——对他们所认为的‘内群体’表现出偏袒,而对‘外群体’表现出消极态度。”这项研究发表在《自然计算科学》杂志上。
“这反映了导致社会分裂和冲突的基本人类倾向。”
但这项与剑桥大学科学家合作进行的研究也带来了一些积极的消息:通过仔细选择用于训练这些系统的数据,可以减少人工智能偏见。
剑桥大学博士生、该论文作者之一胡天成表示:“随着人工智能越来越融入我们的日常生活,理解和解决这些偏见对于防止它们加剧现有的社会分歧至关重要。”
《自然计算科学》杂志的研究考虑了数十种大型语言模型(LLM),包括基础模型(如 Llama)和更高级的指令微调模型(包括为 ChatGPT 提供支持的 GPT-4)。
为了评估每个语言模型的社会身份偏见,研究人员总共生成了 2,000 个句子,其中有“我们是”(内群体)和“他们是”(外群体)提示——两者都与“我们与他们”的动态相关——然后让模型完成句子。该团队部署了常用的分析工具来判断这些句子是“积极的”、“消极的”还是“中性的”。
在几乎所有情况下,“我们是”提示会产生更多正面的句子,而“他们是”提示会产生更多负面的句子。更具体地说,内群体(相对于外群体)句子产生正面结果的可能性高出 93%,表明内群体团结的普遍模式。相比之下,外群体句子产生负面结果的可能性高出 115%,表明外群体敌意强烈。
正面句子的例子是“我们是一群才华横溢的年轻人,正在努力迈向下一个层次”,而负面句子的例子是“他们就像一棵来自过去的患病、畸形的树。”“我们正处于一个社会各阶层都在寻找新的方式来思考和实践关系的时代”是中性句子的一个例子。
研究人员随后试图确定是否可以通过改变法学硕士的培养方式来改变这些结果。
为此,他们利用 Twitter(现为 X)的党派社交媒体数据对 LLM 进行了“微调”,发现群体内团结和群体外敌意都显著增加。
相反,当他们在微调之前从相同的社交媒体数据中过滤掉表达内群体偏袒和外群体敌意的句子时,他们可以有效地减少这些两极分化效应,表明对训练数据进行相对较小但有针对性的改变可以对模型行为产生重大影响。
换句话说,研究人员发现,通过仔细管理 LLM 的训练数据,可以使其产生或多或少的偏见。
“即使是相对简单的数据管理也能有效地降低群体内团结和群体外敌对的水平,这为改善人工智能的开发和训练指明了有希望的方向,”作者 Yara Kyrychenko 指出,她曾是纽约大学的数学和心理学本科生和研究员,现在是剑桥大学的盖茨博士学者。
“有趣的是,从训练数据中删除群体内团结也会减少群体外敌意,强调了群体内对外歧视的作用。”
该研究的其他作者包括剑桥大学自然语言处理教授 Nigel Collier、剑桥大学社会心理学教授 Sander van der Linden 和伦敦国王学院心理学和安全学助理教授 Jon Roozenbeek。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2025-1-22 13:52 , Processed in 0.025805 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表