找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 20|回复: 0

大型语言模型可以帮助检测社交媒体机器人,但也可能使问题变得更糟

[复制链接]

1744

主题

0

回帖

3488

积分

管理员

积分
3488
发表于 2024-8-29 12:51:19 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
2022 年对 Twitter 的一项外部研究估计,该社交媒体网站上三分之一到三分之二的账户都是机器人。这些充斥社交媒体的机器人中有许多被派去散播政治两极分化、仇恨、错误信息、宣传和骗局。从网络人群中筛选出这些机器人的能力对于更安全、更人性化(或至少更人性化)的互联网至关重要。
但最近,大型语言模型(称为“LLM”)的激增,例如 OpenAI 的 ChatGPT 和 Meta 的 Llama,使社交媒体机器人的世界变得更加复杂。
华盛顿大学研究人员领导的一个团队发现,虽然操作员可以使用定制的 LLM 使机器人更善于逃避自动检测器,但 LLM 也可以改进检测机器人的系统。在该团队的测试中,基于 LLM 的机器人将现有检测器的性能降低了 30%。然而,研究人员还发现,专门为检测社交媒体机器人而训练的 LLM 比最先进的系统高出 9%。
该团队于 8 月 11 日在曼谷举行的第 62 届计算语言学协会年会上展示了这项研究。
“机器人操作员和试图阻止他们的研究人员之间一直存在着军备竞赛,”论文主要作者、保罗·G·艾伦计算机科学与工程学院博士生冯尚斌表示。“机器人检测的每一次进步往往伴随着机器人复杂度的提高,因此我们探索了大型语言模型在这场军备竞赛中带来的机会和风险。”
研究人员通过几种方式测试了 LLM 检测机器人的潜力。当他们将 Twitter 数据集(在平台成为 X 之前筛选)输入到现成的 LLM(包括 ChatGPT 和 Llama)时,这些系统无法比目前使用的技术更准确地检测机器人。
“分析用户是否是机器人比我们看到的这些普通法学硕士擅长的一些任务要复杂得多,比如回忆一个事实或做一道小学数学题,”冯说。
这种复杂性部分来自于需要分析三种类型的信息以获得不同的属性来检测机器人:元数据(关注者数量、地理位置等)、在线发布的文本和网络属性(例如用户关注的帐户)。
当团队根据这三种类型的信息对 LLM 进行微调以提供如何检测机器人的指令时,这些模型能够比当前最先进的系统更准确地检测机器人。
该团队还探索了 LLM 如何使机器人更加复杂和更难检测。首先,研究人员只是给 LLM 一些提示,例如“请重写这个机器人账户的描述,使其听起来像一个真正的用户。”
他们还测试了更多迭代、更复杂的方法。在一项测试中,LLM 将重写机器人帖子。然后,团队通过现有的机器人检测系统运行此测试,该系统将估计帖子由机器人撰写的可能性。这个过程将重复进行,因为 LLM 会努力降低该估计值。团队进行了类似的测试,同时删除和添加机器人关注的账户以调整其可能性分数。
这些策略,尤其是重写机器人的帖子,使机器人检测系统的有效性降低了 30%。但该团队训练的基于 LLM 的检测器对这些被操纵的帖子的有效性仅下降了 2.3%,这表明检测基于 LLM 的机器人的最佳方法可能是使用 LLM 本身。
“这项研究只是一个科学原型,”艾伦学院副教授、资深作者 Yulia Tsvetkov 说道。“我们不会将这些系统作为任何人都可以下载的工具发布,因为除了开发防御恶意机器人的技术外,我们还在试验如何创建规避机器人的威胁建模,这将继续猫捉老鼠的游戏,即构建更强大的机器人,而更强大的机器人需要更强大的探测器。”
研究人员指出,使用 LLM 作为机器人检测器存在重大限制,例如系统可能会泄露私人信息。他们还强调,论文中使用的数据来自 2022 年,当时 Twitter 尚未向学术研究人员有效关闭其数据。
未来,研究人员希望将机器人检测扩展到文本以外的领域,例如 TikTok 等其他平台上的表情包或视频,因为这些平台上有更新的数据集。该团队还希望将研究扩展到其他语言。
“对不同语言进行这项研究非常重要,”茨维特科夫说。“由于各种世界冲突,我们看到了大量错误信息、操纵和针对特定人群的行为。”
本文的其他合著者包括西安交通大学本科生万和润和王宁南;西安交通大学助理教授罗敏南;以及圣母大学博士生谭兆轩。
更多信息: Shangbin Feng 等人,《机器人说了什么?大型语言模型在社交媒体机器人检测中的机遇与风险》,aclanthology.org/2024.acl -long.196/

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-9-29 00:19 , Processed in 0.191101 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表