用准确的成功衡量标准取代期刊文章中对人工智能的炒作
机器学习是人工智能的一种形式,人们对它的热议让人觉得,用这种技术解决所有科学问题只是时间问题。虽然人们经常提出令人印象深刻的说法,但这些说法并不总是经得起推敲。机器学习可能有助于解决某些问题,但对其他问题却不够。在《自然机器智能》杂志的一篇新论文中,美国能源部普林斯顿等离子体物理实验室 (PPPL) 和普林斯顿大学的研究人员对机器学习与传统流体相关偏微分方程 (PDE) 求解方法进行了系统性比较研究。此类方程在许多科学领域都很重要,包括支持电网聚变能发展的等离子体研究。
研究人员发现,在解决流体相关偏微分方程的机器学习方法与传统方法之间的比较中,机器学习方法往往更胜一筹。他们还发现,负面结果一直被低估。他们建议制定公平比较的规则,但认为还需要进行文化变革来解决看似系统性的问题。
“我们的研究表明,尽管机器学习具有巨大的潜力,但目前的文献对机器学习如何解决这些特定类型的方程式描绘了过于乐观的图景,”PPPL 计算科学副主任兼研究首席研究员 Ammar Hakim 说。
将结果与弱基线进行比较
偏微分方程在物理学中无处不在,尤其适用于解释自然现象,如热、流体流动和波。例如,这类方程可用于计算放入热汤中的勺子沿其长度方向的温度。
知道汤和勺子的初始温度,以及勺子中的金属类型,PDE 可用于确定餐具放入汤中后给定时间内任何一点的温度。此类方程用于等离子体物理学,因为控制等离子体的许多方程在数学上与流体方程相似。
科学家和工程师已经开发出各种数学方法来求解偏微分方程。其中一种方法被称为数值方法,因为它以数值方式而不是分析或符号方式解决问题,以找到难以或无法精确解决的问题的近似解。
最近,研究人员探索了是否可以使用机器学习来解决这些偏微分方程。目标是比其他方法更快地解决问题。
系统性回顾发现,在大多数期刊文章中,机器学习并没有宣传的那样成功。“我们的研究表明,在某些情况下,机器学习在解决流体相关的偏微分方程时可能会稍微快一些,但在大多数情况下,数值方法更快,”尼克·麦格雷维说。麦格雷维是这篇论文的主要作者,最近在普林斯顿大学等离子体物理学项目获得了博士学位。
数值方法在准确性和运行时间之间有一个基本的权衡。“如果你花更多的时间来解决问题,你会得到更准确的答案,”McGreivy 说。“许多论文在比较中没有考虑到这一点。”
此外,数值方法之间的速度差异也很大。McGreivy 表示,为了发挥作用,机器学习方法需要超越最好的数值方法。然而,他的研究发现,人们经常将数值方法与速度比最快的方法慢得多的数值方法进行比较。
进行公平比较的两条规则
因此,本文提出了两条规则来尝试克服这些问题。第一条规则是仅将机器学习方法与具有相同精度或相同运行时间的数值方法进行比较。第二条规则是将机器学习方法与有效的数值方法进行比较。
在研究的 82 篇期刊文章中,有 76 篇声称机器学习方法与数值方法相比表现更佳。研究人员发现,在那些吹捧机器学习方法的文章中,79% 的文章实际上基础较弱,违反了至少一条规则。其中四篇期刊文章声称与数值方法相比表现不佳,两篇文章声称表现相似或不同。
McGreivy 说:“很少有文章报道机器学习的表现较差,这并不是因为机器学习几乎总是表现更好,而是因为研究人员几乎从不发表机器学习表现较差的文章。”
McGreivy 认为,低门槛比较往往是由学术出版中的不良动机所驱动。“为了让论文被接受,取得一些令人印象深刻的成果会有所帮助。这会激励你让你的机器学习模型尽可能地发挥作用,这是好事。然而,如果你所比较的基线方法效果不佳,你也会得到令人印象深刻的结果。因此,你没有动力去改进你的基线,这是不好的,”他说。
最终结果是,研究人员最终努力研究他们的模型,但却没有找到最佳的数值方法作为比较的基线。
研究人员还发现了报告偏见的证据,包括出版偏见和结果报告偏见。出版偏见是指研究人员在意识到他们的机器学习模型的表现并不比数值方法好后选择不发表他们的研究结果,而结果报告偏见可能涉及丢弃分析中的负面结果或使用非标准的成功衡量标准,使机器学习模型看起来更成功。
总的来说,报告偏差往往会抑制负面结果,并给人一种整体印象,即机器学习在解决与流体相关的 PDE 方面比实际更好。“这个领域有很多炒作。希望我们的工作能为使用机器学习来改善最新技术的原则性方法提供指导方针,”哈基姆说。
为了克服这些系统性和文化性问题,哈基姆认为,资助研究和大型会议的机构应该采取政策,防止使用弱基线,或者要求更详细地描述所使用的基线及其被选中的原因。
“他们需要鼓励研究人员对自己的研究结果保持怀疑态度,”哈基姆说。“如果我发现结果好得难以置信,那么它们很可能就是假的。”
页:
[1]