人工智能普遍不擅长在对话中何时插话:研究人员发现了一些根本原因
今天当你进行对话时,请注意交流的自然点,为对方留下插话的机会。如果他们的时机不对,他们可能会被认为过于咄咄逼人、过于胆怯,或者只是尴尬。来回交流是对话中信息交换的社交元素,尽管人类自然而然地会做到这一点(除了一些例外),但人工智能语言系统普遍不擅长这一点。
塔夫茨大学的语言学和计算机科学研究人员现在已经发现了人工智能对话技能不足的一些根本原因,并指出了使它们成为更好的对话伙伴的可能方法。他们的研究结果将在 11 月 12 日至 16 日在迈阿密举行的自然语言处理实证方法 ( EMNLP 2024 ) 会议上发表,并发布到arXiv预印本服务器上。
当人们进行口头交流时,他们大多会避免同时说话,而是轮流说话和倾听。每个人都会评估许多输入线索,以确定语言学家所说的“过渡相关位置”或 TRP。TRP 经常出现在对话中。很多时候,我们会跳过 TRP,让说话者继续说下去。其他时候,我们会利用 TRP 轮流说话并分享我们的想法。
心理学和计算机科学教授 JP de Ruiter 表示,长期以来人们认为对话中的“副语言”信息——语调、单词和短语的延长、停顿和一些视觉提示——是识别 TRP 的最重要信号。
“这有一点帮助,”德鲁伊特说,“但如果你去掉单词,只给人们韵律——就像通过袜子说话一样传达的语音旋律和节奏——他们就无法再检测到适当的 TRP。”
反过来做,只用单调的语音提供语言内容,研究对象就会发现与自然语音中相同的大部分 TRP。
“我们现在知道,在对话中轮流发言最重要的线索是语言内容本身。停顿和其他线索并不那么重要,”德鲁伊特说。
人工智能非常擅长检测内容中的模式,但是当 de Ruiter、研究生 Muhammad Umair 和计算机科学研究助理教授 Vasanth Sarathy (EG20) 使用大型语言模型人工智能测试转录对话时,人工智能无法以接近人类的能力检测出适当的 TRP。
原因在于人工智能的训练基础。大型语言模型(包括最先进的模型,如 ChatGPT)都是在互联网上大量书面内容数据集上进行训练的,这些内容包括维基百科条目、在线讨论组、公司网站、新闻网站等几乎所有内容。
该数据集缺少大量转录的口语对话语言,这些语言没有脚本,使用更简单的词汇和更短的句子,结构也不同于书面语言。人工智能不是在对话中“培养”出来的,因此它没有能力以更自然、更像人类的方式模拟或参与对话。
研究人员认为,有可能采用一个在书面内容上训练的大型语言模型,并通过在一组较小的对话内容上进行额外训练来对其进行微调,以便它能够更自然地参与新颖的对话。当他们尝试这样做时,他们发现复制类似人类的对话仍然存在一些限制。
研究人员警告称,人工智能进行自然对话可能存在根本障碍。“我们假设这些大型语言模型能够正确理解内容。事实可能并非如此,”萨拉西说。“它们根据表面的统计相关性预测下一个单词,但轮流说话需要从上下文中汲取更深层次的对话。”
“通过在大量自然产生的口语上预先训练大型语言模型,有可能克服这些局限性,”Umair 说,他的博士研究重点是人机交互,也是这项研究的主要作者。
“尽管我们已经发布了一套新颖的训练数据集,帮助人工智能识别自然对话中的语音机会,但收集训练当今人工智能模型所需的规模的数据仍然是一项重大挑战,”他说。“与互联网上的书面内容相比,可用的对话录音和文字记录数量远远不够。”
页:
[1]