随着法学硕士课程的规模越来越大,他们更有可能给出错误的答案,而不是承认自己的无知
西班牙瓦伦西亚理工大学的一组人工智能研究人员发现,随着流行的 LLM(大型语言模型)变得越来越大、越来越复杂,它们越来越不可能向用户承认他们不知道答案。研究小组在《自然》杂志上发表的研究中,测试了三个最受欢迎的人工智能聊天机器人的最新版本,测试内容包括响应、准确性以及用户发现错误答案的能力。
随着法学硕士成为主流,用户已经习惯于用它们来写论文、写诗或歌曲,以及解决数学问题和其他任务,准确性问题已成为一个更大的问题。在这项新研究中,研究人员想知道最受欢迎的法学硕士是否随着每次更新而变得更加准确,以及当它们出错时会做什么。
为了测试三门最受欢迎的法学硕士课程 BLOOM、LLaMA 和 GPT 的准确性,该小组向他们提出了数千个问题,并将他们收到的答案与早期版本对同一问题的答案进行了比较。
他们还改变了主题,包括数学、科学、字谜和地理,以及法学硕士生成文本或执行操作(如排序列表)的能力。对于所有问题,他们首先分配了难度等级。
他们发现,随着聊天机器人的每次迭代,准确率总体上都有所提高。他们还发现,随着问题变得越来越难,准确率也随之下降,这正如预期的那样。但他们还发现,随着法学硕士课程规模越来越大、越来越复杂,他们往往对自己正确回答问题的能力不那么公开。
在早期版本中,大多数 LLM 都会告诉用户他们找不到答案或需要更多信息。在新版本中,LLM 更有可能进行猜测,因此总体上会给出更多答案,既有正确答案也有错误答案。他们还发现,即使是简单的问题,所有 LLM 偶尔也会给出错误答案,这表明它们仍然不可靠。
然后,研究小组要求志愿者对研究第一部分的答案进行评分,看它们是正确还是错误,结果发现大多数人都很难发现错误的答案。
页:
[1]