研究发现语言模型对非二元用户存在偏见

Josiah02 · 发表于前天 20:36

如果旨在保护边缘化声音的技术最终让他们噤声，会发生什么？南加州大学维特比分校信息科学研究所 (ISI) 的研究助理 Rebecca Dorn 发现，用于审核在线内容的大型语言模型 (LLM) 因曲解了酷儿社区的语言而使其失望。
非二元可见性和算法偏见
在题为《网络互动中的非二元性别表达》的论文中，南加州大学维特比工程学院计算机科学专业四年级博士生 Dorn 研究了X（前身为 Twitter）等社交媒体平台上的非二元性别用户，发现他们获得的参与度（例如点赞或关注者）通常低于二元性别用户。此外，他们的帖子经常被内容审核算法标记为更具毒性，即使它们不包含有害内容。
多恩于 2024 年 9 月 2 日至 5 日在意大利卡拉布里亚举行的第 16 届社会网络分析与挖掘进展国际社会会议(ASONAM 2024)上以线上方式展示了这些研究结果。
研究表明，非二元性别用户在 X 等平台上的活跃度往往较低，这可能是由于他们在社交媒体数据中的代表性不足，而且非二元性别用户获得的点赞、转发和关注者数量也比二元性别用户少。这种缺乏可见性的情况令人担忧，因为它可能导致非二元性别的声音在重要对话中被边缘化，限制他们的社会影响力，并妨碍他们为社区重要问题发声的能力。
多恩的研究还发现了一个令人不安的趋势：非二元性别用户的推文更容易被误认为是恶意推文。多恩说：“我们发现，某个性别群体的代表性越低，他们的推文的恶意评分就越高。”
研究人员认为，这可能是算法偏见的结果，算法错误地将酷儿社区中常用的语言解读为有害语言。这与之前的证据一致，这些证据表明，来自变装皇后等性别变异群体的社交媒体内容被不成比例地标记为仇恨言论，这进一步凸显了更细致入微、更公平的内容审核系统的必要性。
这一发现促使她发表了后续论文《语言模型对有害言论的检测表现出性别歧视方言偏见》。该研究结果发表在arXiv预印本服务器上。
回收诽谤词的问题
在第二篇论文中，Dorn 和她的合著者 Lee Kezar（南加州大学维特比分校计算机科学专业博士生）探讨了法学硕士如何经常错误地将非二元性别和酷儿言论（尤其是使用重复的辱骂）标记为有害言论。重复的辱骂曾经被用作侮辱，但如今已被 LGBTQ+ 社区重新利用，成为骄傲和赋权的象征。
然而，人工智能内容审核系统未能掌握这些细微差别，常常将赋权语言误认为攻击性内容，并压制那些他们想要保护的人的声音。
“我们发现，现有模型倾向于标记这些术语，即使它们没有被以有害的方式使用。这令人沮丧，因为这意味着这些系统正在加强这些社区的边缘化，”多恩解释说。
“酷儿群体经常以肯定和积极的方式使用重新出现的辱骂性语言，但模型无法检测到这种背景。当这些相同的模型被用来调节那些已经边缘化了酷儿声音的平台时，就会出现问题。”
为了调查这一问题，Dorn 和 Kezar 创建了 QueerReclaimLex，这是一个由性别酷儿人士注释的非贬义 LGBTQ+ 辱骂性话语的数据集。他们测试了五种流行的语言模型，结果发现，当这些词语被其想要代表的人使用时，这些系统通常无法辨别其正面或中性的语境。
在所有测试模型中，系统在尝试识别同性恋者以积极或中性的方式重新使用的辱骂性话语时遇到的困难最大。在某些情况下，模型的正确率不到 24%，这表明它们对这些词语的上下文理解得非常差。
下一步是什么？
Dorn 的工作凸显了人工智能驱动的内容审核中的一个关键问题：虽然这些系统旨在保护用户免受有害言论的侵害，但它们经常误解历史上被边缘化的群体的语言，尤其是酷儿和非二元性别者。随着这些模型继续塑造这些群体聚集在一起寻求支持和自我表达的数字空间，解决这些偏见至关重要。
ISI 高级首席科学家 Kristina Lerman 是南加州大学维特比工程学院托马斯·洛德计算机科学系的研究教授，也是两篇论文的合著者，她强调了这项研究的重要性，“这项研究提醒我们，作为研究人员，我们不能盲目地相信人工智能模型的输出。我们对世界的观察——在本例中，即性别酷儿社区的在线言论——可能无法准确反映现实。”

账号		自动登录	找回密码
密码			立即注册