人工智能偏见检测工具有望解决模型中的歧视问题

Josiah02 · 发表于 2024-12-12 12:37:54

ChatGPT 等生成式 AI 模型使用从网站、论坛、社交媒体和其他在线来源获得的大量数据进行训练；因此，它们的回应可能包含有害或歧视性的偏见。
加泰罗尼亚开放大学 (UOC) 和卢森堡大学的研究人员开发了 LangBiTe，这是一个开源程序，用于评估这些模型是否没有偏见并符合有关反歧视的立法。
“LangBiTe 的创建并非出于商业目的，而是为了向生成式 AI 工具的创建者和非技术用户提供有用的资源；它应该有助于识别和减轻模型中的偏见，并最终帮助在未来创造出更好的 AI，”UOC 互联网跨学科研究所 (IN3) 索姆研究实验室系统、软件和模型组的研究员 Sergio Morales 解释说，他的博士论文就是基于这个工具。
这篇论文由卢森堡大学计算机科学、多媒体和电信学院成员、Som 研究实验室首席研究员 Robert Clarisó 和卢森堡大学研究员 Jordi Cabot 指导。这项研究发表在《ACM/IEEE 第 27 届模型驱动工程语言和系统国际会议论文集》上。
超越性别歧视
LangBiTe 与其他类似程序的不同之处在于其范围，研究人员表示，它是目前可用的“最全面、最详细”的工具。“大多数实验过去都侧重于男女性别歧视，而没有考虑其他重要的道德方面或弱势群体。通过 LangBiTe，我们分析了一些人工智能模型在多大程度上可以以种族主义的方式、明显偏颇的政治观点或恐同或恐跨性别的含义来回答某些问题，”他们解释说。
研究人员还强调，虽然其他项目根据各个维度对人工智能模型进行了分类，但其伦理方法“过于肤浅，没有详细说明评估的具体方面”。
灵活且适应性强的计划
新程序让用户分析包含基于 AI 模型的功能的应用程序或工具是否适合每个机构或组织的特定道德要求或用户社区。研究人员解释说，“LangBiTe 不会规定任何特定的道德框架。什么是道德的，什么不是道德的，很大程度上取决于在其产品中开发和整合基于生成式 AI 模型的功能的组织的背景和文化。”
“因此，我们的方法让用户定义自己的道德关注和评价标准，并根据特定的文化背景和监管环境调整偏见评估。”
为此，LangBiTe 包含了包含 300 多个提示的库，可用于揭示 AI 模型中的偏见，每个提示都关注一个特定的道德问题：年龄歧视、LGBTIQA+ 恐惧症、政治偏好、宗教偏见、种族主义、性别歧视或仇外心理。
每个提示都有相关答案，以评估模型的答案是否有偏差。它还包括可以修改的提示模板，允许用户用新问题或道德问题来扩展和丰富原始集合。
不仅仅是 ChatGPT
LangBiTe 目前提供对专有 OpenAI 模型（GPT-3.5、GPT-4）以及 HuggingFace 和 Replicate 上提供的数十种其他生成式 AI 模型的访问，这些平台可以与包括 Google 和 Meta 在内的各种模型进行交互。“此外，任何想要这样做的开发人员都可以扩展 LangBiTe 平台来评估其他模型，包括他们自己的模型，”Morales 补充道。
该程序还允许用户随时查看同一模型的不同版本以及不同供应商的模型之间的响应差异。“例如，我们发现，ChatGPT 4 的现有版本在性别偏见测试中的成功率为97 %，高于当时 ChatGPT 3.5 版本的成功率，后者的成功率为 42%。
研究人员表示：“同一天，我们发现，对于谷歌的 Flan-T5 模型来说，规模越大，其在性别、宗教和国籍方面的偏见就越少。”
多语言和多媒体分析
最受欢迎的人工智能模型是基于英语内容创建的，但正在进行的地区项目正在使用其他语言（如加泰罗尼亚语和意大利语）训练模型。UOC 研究人员还加入了评估不同语言工具的功能，这意味着用户可以“根据他们用于查询的语言来检测模型是否存在偏差”，Morales 说。
他们还在研究如何分析生成图像的模型，例如 Stable Diffusion、DALL·E 和 Midjourney。“这些工具目前的应用范围从制作儿童读物到新闻内容的图形，这些工具可能会传播社会显然希望消除的扭曲和/或负面刻板印象。
“我们希望未来的 LangBiTe 能够用于识别和纠正这些模型生成的图像中的所有类型的偏差，”UOC 研究人员说。
遵守欧盟人工智能法案的工具
该工具的功能可以帮助用户遵守最近的欧盟人工智能法案，该法案旨在确保新的人工智能系统促进平等准入、性别平等和文化多样性，并且其使用不会损害欧盟及其成员国国家法律规定的非歧视权利。
该计划已经被卢森堡科学技术研究所 (LIST) 等机构采用，该研究所已整合 LangBiTe来评估几种流行的生成式 AI 模型。

账号		自动登录	找回密码
密码			立即注册