Josiah02 发表于 2024-11-2 00:00:44

这是人工智能吗?同行评审员很难区分法学硕士和人类写作

ChatGPT 等大型语言模型 (LLM) 已经发展得非常先进,甚至可以通过美国医师执照考试。但同行评审员在 AI 检测方面表现如何?AI 的使用如何影响他们对工作的看法?
由耶鲁大学医学院数字战略与转型副院长 Lee Schwamm 博士领导的团队试图回答这些问题,他们为《Stroke》杂志举办了一场包含人工智能和人类投稿的征文比赛。
研究人员发现,当作者身份不明时,审阅者很难准确区分人类论文和人工智能论文。然而,当审阅者认为一篇文章是由人工智能撰写时,他们不太可能将其评为特定主题的最佳论文。
Schwamm 希望这些发现能够凸显出制定在科学论文中适当使用人工智能的政策的必要性。他的团队于 9 月 3 日在《Stroke》杂志上发表了他们的研究成果。
“这项研究给编辑委员会和教育工作者敲响了警钟,我们不能坐等别人来解决这个问题,”施瓦姆说。“我们需要开始思考这些领域中的正确护栏是什么,哪些地方我们应该鼓励使用,哪些地方我们应该保持中立,哪些地方我们应该禁止使用。”
审稿人面临人工智能检测难题
Schwamm 的团队邀请《中风》的读者就中风领域三个有争议的话题之一提交有说服力的文章——例如,他汀类药物是否会增加出血性中风的风险?文章最多 1,000 字,参考文献不超过 6 篇。研究人员总共收到了 22 篇人类投稿。
然后,研究人员使用四种不同的 LLM(ChatGPT 3.5、ChatGPT 4、Bard 和 LLaMA-2)为每个主题撰写一篇文章。虽然他们自己没有编辑 AI 论文,但他们审查并更正了文献引文。“参考文献是 AI 经常犯错的地方之一,”Schwamm 解释说,“我们不想让 AI 暴露自己——我们希望审阅者真正关注写作的质量。”
审稿人都是《Stroke》的 编辑委员会成员,他们都被要求判断文章的作者是人类还是人工智能,对文章的质量和说服力进行评分,并为每个提示选择一个主题的最佳文章。令人惊讶的是,研究发现,审稿人正确识别作者的几率只有 50%。“这就像抛硬币一样,”施瓦姆说。
在质量方面,审稿人对人工智能论文的评价高于人类论文。有趣的是,在进行多变量分析后,该团队发现,唯一与审稿人正确将人工智能指定为作者类型的几率更高的因素是说服力。“审稿人认为文章的说服力越强,它与人工智能作者的关联就越大,”施瓦姆说。
研究团队还发现,当审阅者认为一篇文章是由人工智能撰写时,他们只有 4% 的时间将其评为该主题中最好的。“审阅者无法区分人类和人工智能撰写的文章,但当他们决定一篇文章是由人工智能撰写时,他们几乎从未将其评为同类中最好的,”施瓦姆说。
LLM 可能成为改变科学写作格局的工具
研究表明,随着法学硕士课程的进步,同行评审员检测人工智能编写内容的能力将逐渐减弱。它还揭示了评审员对机器生成内容的负面偏见。随着越来越多的内容由人工智能生成或由人类和人工智能混合编写,这项研究提出了有关人工智能在科学内容中的作用的重要问题。
当法学硕士项目刚刚出现时,一些科学期刊(例如《科学》)完全禁止使用法学硕士项目。后来,该刊物调整了立场,允许研究人员在论文中声明他们如何使用人工智能。
“我们必须抵制这种自然倾向,即认为使用法学硕士学位是不公平的——你不知何故没有付出应有的努力,”施瓦姆说。“我们现在使用人工智能来实际进行科学研究。因此,说你不能让它参与结果的撰写,这将是讽刺的。”
虽然作者将承担更大的责任来核实任何人工智能输出的内容,但人工智能的日益普及并不一定是负面的。“我们需要开始将人工智能视为一种可以利用的工具,”施瓦姆说。“我们有各种各样的方式让技术帮助我们写作,比如拼写检查器和文字处理器。这是人工智能的新迭代。”
例如,这项技术将为美国母语非英语的研究人员带来重大改变。“我认为这将以一种好的方式让竞争环境更加公平,”施瓦姆说。

页: [1]
查看完整版本: 这是人工智能吗?同行评审员很难区分法学硕士和人类写作