人工智能制作的 Connections 谜题可与人类创造的谜题相媲美
人工智能 (AI) 能否创造出与人类专家一样有趣且具有挑战性的字谜游戏?一项发表在arXiv预印本服务器上的研究表明,答案可能是肯定的——至少对于《纽约时报》广受欢迎的 Connections 游戏而言。纽约大学坦登工程学院和 Jester 实验室的研究人员开发出了一种人工智能系统,能够生成新颖的 Connections 谜题,这些谜题通常可与 Times 谜题设计师创作的谜题相媲美。
在一项用户研究中,参与者在不了解来源的情况下玩了人工智能生成的谜题和《时代》官方谜题。在大约一半的正面比较中,玩家认为人工智能谜题与人类生成的谜题一样有趣或更具创意,难度也更大。
他们的发现揭示了 GPT-4 等大型语言模型的创造能力。
《Connections》于 2023 年 6 月首次亮相,要求玩家将 16 个单词分成四个主题相关的组。这款游戏很快成为《纽约时报》最受欢迎的在线游戏之一,仅次于 Wordle,每年有数十亿次游戏。
为了创建 AI 生成的谜题,研究人员采用了“代理工作流”方法。该方法涉及在整个谜题创建过程中使用 GPT-4 扮演多个专门角色。
研究人员并没有要求人工智能一次性生成整个谜题,而是将任务分解为更小、更集中的步骤。对于每个步骤,他们都会向 GPT-4 发出具体指令,让它有效地扮演不同的角色,例如谜题创建者、编辑者和难度评估者。
这种方法使团队能够更有效地利用人工智能的能力,通过引导人工智能完成模仿人类设计师如何创作谜题的过程。
“我们发现,解决像生成 Connections 拼图这样的复杂问题需要的不仅仅是让人工智能去做,”纽约大学坦顿游戏创新实验室的博士生、这项研究的主要作者蒂莫西·梅里诺 (Timothy Merino) 说。“通过将任务分解为更小、更易于管理的步骤,并以各种方式使用 LLM 作为工具,我们取得了更好的结果。”
这篇论文的资深作者、纽约大学坦顿分校计算机科学与工程副教授兼游戏创新实验室主任朱利安·托格利厄斯强调了这种方法的重要性。“法学硕士对我们的系统至关重要,但它并不是主导。我们在系统的不同部分使用它来完成特定任务,比如要求找到适用于特定单词列表的最佳概念。”
研究人员还发现了谜题引入难度的两种主要方式:“故意重叠”和“假组”。他们分析了单词相似度与难度的关系,发现较简单的单词组往往有更多相似的单词,而较棘手的单词组有较少的相似单词。
“我一直对 GPT 在创建巧妙的词组方面的表现感到惊讶,”Merino 说道。“我最喜欢的 AI 生成的单词之一是‘披头士专辑单词’:‘Abbey’、‘Mystery’、‘Pepper’ 和 ‘White’。”
研究人员表示,这项研究的意义不仅限于文字游戏。这是朝着更好地理解人工智能能力和人类创造力迈出的一步。
“这项工作不仅仅是生成谜题,”托格利乌斯说。“这是关于使用人工智能来测试和改进我们关于什么是好的谜题的理论。连接是一个值得研究的领域,因为什么是好的游戏并不容易定义。我们可以通过创建关于什么是好游戏的理论来完善我们对游戏设计的理解,将它们应用到算法中,看看算法生成的游戏是否真的好。”
这篇最新论文以游戏创新实验室对人工智能和连接正在进行的研究为基础。在今年早些时候发表的一项研究中,该实验室的研究人员评估了各种人工智能模型在解决连接难题方面的能力。他们的研究结果表明,虽然 GPT-4 的表现优于其他模型,但它仍未掌握游戏,成功解决了仅约 29% 的难题。
更多信息: Tim Merino 等人,建立新联系:法学硕士作为《纽约时报》“联系文字游戏”的谜题生成器,arXiv (2024)。DOI :10.48550/arxiv.2407.11240
期刊信息: arXiv
页:
[1]