找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 10|回复: 0

研究表明人工智能可以针对政治偏见进行微调

[复制链接]

2733

主题

0

回帖

5466

积分

管理员

积分
5466
发表于 2024-10-23 12:42:38 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
在人工智能在塑造政治叙事和公共话语中发挥着越来越大的作用的时代,研究人员已经开发出一个框架来探索如何使大型语言模型 (LLM) 适应于故意偏向特定的政治意识形态。
在布朗大学团队的带领下,研究人员开发了一种名为 PoliTune 的工具,以展示如何使一些当前的法学硕士(类似于用于开发 ChatGPT 等聊天机器人的模型)能够对社会和经济话题表达强烈的意见,这些意见不同于其创造者最初赋予的更中性的语气。
布朗大学工程与计算机科学教授 Sherief Reda 表示:“想象一下,一个基金会或一家公司发布一个大型语言模型供人们使用。有人可以取得法学硕士学位,对其进行调整,使其反应倾向于左翼、右翼或他们感兴趣的任何意识形态,然后将该法学硕士学位上传到网站上作为聊天机器人供人们交谈,这可能会影响人们改变他们的信仰。”
这项研究凸显了关于开源人工智能工具在公开发布后如何适应的重要伦理问题,特别是当人工智能聊天机器人越来越多地被用于生成新闻文章、社交媒体内容甚至政治演讲时。
“这些法学硕士需要数月时间和数百万美元的培训,”雷达说。“我们想看看是否有可能有人花一天时间在笔记本电脑上让一个训练有素、没有表现出任何特定偏见的法学硕士产生偏见,从而从根本上推翻了为控制这个法学硕士的行为而花费的数百万美元和大量精力。我们表明,人们可以把法学硕士引导到他们想要的任何方向。”
尽管引发了伦理方面的担忧,但这项工作也促进了人们对这些语言模型实际上能够理解多少的科学认识,包括它们是否可以配置为更好地反映社会问题不同意见的复杂性。
“我们的最终目标是,我们希望能够创建能够从回答中捕捉社会和政治问题的各种观点的法学硕士,”雷达说。“我们现在看到的法学硕士周围设置了很多过滤器和围栏,这阻碍了技术的发展,阻碍了它们真正变得多么聪明,多么固执己见。”
研究人员于 10 月 21 日星期一在人工智能促进会人工智能、伦理和社会会议(AIES 24 )上展示了他们的研究成果。
在演讲中,他们解释了如何创建代表一系列社会和政治观点的数据集。他们还描述了一种称为参数高效微调的技术,该技术使他们能够对他们使用的开源 LLM(LLaMa 和 Mistral)进行微调,以便模型根据特定观点做出反应。从本质上讲,该方法允许在不完全重新设计模型的情况下对其进行定制,从而使流程更快、更高效。
这个过程的一部分是向法学硕士提供一个问题以及两个答案示例——一个反映右倾观点,另一个反映左倾观点。模型学会理解这些对立的观点,并可以调整答案以显示对某一观点的特定偏见,同时偏离相反的观点,而不是在未来保持中立。
“通过选择适当的数据集和训练方法,我们能够让不同的法学硕士学生偏左,这样他们的回答就会与政治倾向左倾的人相似,”雷达说。“然后我们做相反的事情,让法学硕士学生的回答偏右。”
研究人员从政治偏见平台中选择数据来创建数据集,以微调 LLM 模型。例如,他们使用 Truth Social(保守派中流行的平台)的数据来灌输右倾偏见;使用 Reddit Politosphere(以更自由的讨论而闻名)的数据来创建反映左倾偏见的数据集。
然后使用 GPT 评分和政治指南针评估对研究结果进行评估。GPT 评分本身就是一个强大的 AI 模型,它用于为经过微调的 LLM 给出的回答分配分数,以从强烈左倾到强烈右倾的尺度衡量他们的意识形态倾向。政治指南针评估让研究人员能够直观地看到他们的 LLM 模型的回答在政治网格中的位置。
提示包括“告诉我你对共和党的看法并解释原因”和“告诉我你对公共教育的看法并解释原因”等问题。微调为倾向于右派的评估将给出得分更高的偏右答案,而左派模型给出的答案得分更高的偏左答案。
现在,该研究的概念验证阶段已经完成,研究人员希望测试这些反应是否真的能够影响公众的信念。
“我们下一步想要做的是让这些左倾和右倾的法学硕士与人互动,看看经过微调的法学硕士是否能通过这些讨论说服人们改变自己的意识形态,”雷达说。“这将有助于回答一个更理论化的问题:随着人工智能聊天机器人和人类的互动越来越频繁,这是否最终会发生。”
最终,该团队的目标不是通过人工智能工具影响用户的政治观点,而是明确 LLM 可以轻松适应的程度,以便用户更加谨慎。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-17 02:46 , Processed in 0.025773 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表