大型语言模型能够识别操纵性语言吗？

Josiah02 · 发表于 2024-10-30 02:13:39

就像我们今天生活中的大多数事情一样，人际对话也已经数字化。
“随着私人对话转向通讯应用和社交媒体，人们在网上遭受精神和情感操纵的情况越来越多，”计算机科学专业二年级博士生 Yuxin Wang 说道。他与计算机科学助理教授 Soroush Vosoughi 以及生物医学统计学和流行病学教授兼精准健康和人工智能中心主任 Saeed Hassanpour 一起工作。
王将心理操纵（如煤气灯操纵）定义为一种言语虐待形式，其目的是故意控制或影响某人的思想以谋取个人利益。雇主或主管威胁破坏职业生涯，或在有毒关系中进行情感勒索，都是常见的例子。
王说，由于这种语言是隐式的且依赖于上下文，因此识别操纵性语言对于大型语言模型来说非常具有挑战性。这些模型为我们每天用来交流以及消费和创建内容的应用程序数量迅速增加提供支持。
为了解决这一差距，王和她的合作者编制了一个新的对话数据集，展示或强调对话中的操纵，并使用该数据集来分析最先进的人工智能模型在识别操纵内容方面的有效性。
他们的研究成果于八月份在计算语言学协会年会上公布。
MentalManip 数据集包含从康奈尔电影对话语料库中提取的电影剧本中一对角色之间的 4,000 组虚构对话。研究人员使用两种策略来过滤数据源并找到具有操纵元素的对话。
第一种方法是手动编制一份包含 175 个经常出现在心理操纵语言中的关键短语的列表，例如“你太敏感了”或“我了解你的经理”。然后梳理源数据中的对话以查找与这些短语匹配的内容。第二种方法是通过监督学习训练一个模型来区分可能具有操纵性的对话。
研究人员随后测试了一些著名的 LLM，包括 OpenAI 的 GPT-4 和 Meta 的 Llama-2。这些模型的任务是识别研究人员呈现的对话是否包含操纵元素。
第二个实验要求模型在看到一些例子后，识别出三段对话中哪段包含操纵性语言。最后，使用新数据集中标记的操纵性语言示例对模型进行微调，然后测试其识别操纵的能力。
研究人员发现，这些模型无法完成这三种情况下对操纵内容进行分类的任务。
这些模型，尤其是规模较小的 LLM 模型，倾向于将一般的恶意和粗言秽语视为操纵，这是它们过度敏感的表现。它们在检测心理操纵方面的整体表现不令人满意，而且在现有的相关心理健康或恶意检测数据集上对模型进行微调后，其表现也没有改善。对对话中的句子进行分析后发现，它们在语义上难以区分，这可能是阻碍模型表现的一个因素。
王希望他们的数据集和初步结果能够激发更多关于这一主题的研究。经过训练能够可靠地识别操纵行为的 LLM 模型可以成为早期干预的宝贵工具，警告受害者另一方正在试图操纵他们，王说。
沃索吉表示，识别操纵意图，尤其是隐含的操纵意图，需要一定的社交智能，而这是当前人工智能系统所缺乏的。
“我们的研究表明，尽管大型语言模型变得越来越复杂，但它们仍然难以掌握人类对话中操纵的微妙之处，”沃索吉说。“这强调了需要更有针对性的数据集和方法来有效检测这些微妙的滥用形式。”

账号		自动登录	找回密码
密码			立即注册