检测机器生成的文本：随着大型语言模型的进步而展开的军备竞赛

Josiah02 · 发表于 2024-8-14 07:55:49

过去四年来，机器生成的文本一直在欺骗人类。自 2019 年 GPT-2 发布以来，大型语言模型 (LLM) 工具在编写故事、新闻文章、学生论文等方面的能力不断提高，以至于人类常常无法识别他们正在阅读的文本是否是由算法生成的。
虽然这些法学硕士课程可以节省时间，甚至提高构思和写作的创造力，但它们的威力可能会导致滥用和有害后果，这些后果已经在我们消费信息的各个领域显现出来。无法检测机器生成的文本只会增加危害的可能性。
学术界和企业都在尝试改进这种检测方法，其中一种方法就是使用机器本身。机器学习模型可以识别词汇选择和语法结构的细微模式，从而以人类直觉无法做到的方式识别 LLM 生成的文本。
如今，许多商用检测系统都声称能够非常成功地检测机器生成的文本，准确率高达 99%，但这些说法是否好得令人难以置信？计算机和信息科学教授 Chris Callison-Burch 和 Callison-Burch 团队的博士生 Liam Dugan 在最近于计算语言学协会第 62 届年会上发表的论文中试图找到答案。该研究成果发表在arXiv预印本服务器上。
“随着检测机器生成文本的技术不断进步，用于逃避检测器的技术也在不断进步，”Callison-Burch 说。“这是一场军备竞赛，虽然我们应该努力实现开发强大检测器的目标，但现有的检测器存在许多局限性和漏洞。”
为了研究这些局限性并为开发强大的检测器提供前进的道路，研究团队创建了强大的人工智能检测器 (RAID)，这是一个包含超过 1000 万份文档的数据集，涵盖食谱、新闻文章、博客帖子等，包括人工智能生成的文本和人类生成的文本。
RAID 是第一个标准化基准，用于测试当前和未来检测器的检测能力。除了创建数据集之外，他们还创建了一个排行榜，以公正的方式公开排名所有使用 RAID 评估过的检测器的性能。
Dugan 表示：“排行榜的概念一直是机器学习（如计算机视觉）许多方面取得成功的关键。RAID 基准是首个用于稳健检测 AI 生成文本的排行榜。我们希望我们的排行榜能够促进这一快速发展领域的透明度和高质量研究。”
杜根已经看到了这篇论文对开发探测器的公司产生的影响。
“在我们的论文以预印本形式发布并发布 RAID 数据集后不久，我们开始看到该数据集被多次下载，并且我们还联系了 Originality.ai，这是一家开发 AI 生成文本检测器的知名公司，”他说。
“他们在博客文章中分享了我们的工作，将他们的检测器排在我们的排行榜上，并使用 RAID 来识别以前隐藏的漏洞并改进他们的检测工具。看到社区赞赏这项工作并努力提高 AI 检测技术的标准，令人鼓舞。”
那么，目前的探测器是否能胜任手头的工作呢？RAID 表明，并没有多少探测器能像它们声称的那样出色。
Callison-Burch 表示：“在 ChatGPT 上训练的检测器在检测其他 LLM（如 Llama）的机器生成的文本输出时几乎没有用处，反之亦然。”
“接受过新闻报道训练的检测器在审查机器生成的食谱或创意写作时并不奏效。我们发现，有无数的检测器只有在应用于非常具体的用例以及审查与它们接受过训练的文本相似的文本时才能很好地发挥作用。”
有故障的检测器不仅仅是因为它们不能很好地工作而成为一个问题，它们还可能和最初用于生成文本的人工智能工具一样危险。
“如果大学或学校依靠经过严格训练的检测器来发现学生使用 ChatGPT 写作业，他们可能会错误地指控学生作弊，而实际上并没有，”Callison-Burch 说。“他们还可能会错过那些使用其他 LLM 写作业作弊的学生。”
限制检测器检测机器生成文本能力的不仅仅是检测器的训练或缺乏训练。该团队研究了对抗性攻击（例如用相似的符号替换字母）如何轻易使检测器偏离轨道，并使机器生成的文本逃脱检测。
“事实证明，用户可以进行各种编辑来逃避我们在本研究中评估的检测器的检测，”杜根说。“一些简单的事情，比如插入额外的空格、将字母替换为符号，或者对几个单词使用替代拼写或同义词，都可能导致检测器失效。”
研究得出的结论是，虽然目前的探测器还不够强大，无法在社会上得到广泛应用，但在大型、多样化、共享的资源上公开评估探测器对于加速检测进展和信任至关重要，而且透明度将导致开发适用于各种用例的探测器。
Dugan 表示：“评估稳健性对于检测尤其重要，而且随着公共部署规模的扩大，其重要性只会增加。我们还需要记住，检测只是一个更大、更有价值的动机的工具：防止人工智能生成的文本大规模传播造成危害。”
“我的工作重点是减少法学硕士可能无意中造成的危害，至少让人们意识到这些危害，以便他们在与信息互动时能够更好地了解情况，”他继续说道。“在信息传播和消费领域，了解文本的生成地点和方式将变得越来越重要，这篇论文只是我努力弥合科学界和公众界之间的差距的一种方式。”
Dugan 和 Callison-Burch 与其他几位研究人员合作开展了这项研究，其中包括宾夕法尼亚大学研究生 Alyssa Hwang、Josh Magnus Ludan、Andrew Zhu 和 Hainiu Xu，以及宾夕法尼亚大学前博士生 Daphne Ippolito 和伦敦大学学院本科生 Filip Trhlik。他们继续致力于提高人工智能工具的可靠性和安全性以及社会如何将它们融入日常生活的项目。
更多信息： Liam Dugan 等人，RAID：机器生成文本检测器稳健评估的共享基准，arXiv (2024)。DOI ：10.48550/arxiv.2405.07940
期刊信息： arXiv

账号		自动登录	找回密码
密码			立即注册