研究人员探索如何使更大的神经网络更接近生物大脑的能源效率
买的彩票越多,中奖的几率就越高,但花费比中奖更多的钱显然不是一个明智的策略。深度学习驱动的人工智能也发生了类似的事情:我们知道神经网络越大(即参数越多),它就越能更好地学习我们为其设定的任务。然而,在训练过程中将其无限大这一策略不仅不可能,而且效率极低。科学家们试图模仿生物大脑的学习方式,这种方式资源利用率极高,他们为机器提供了一个循序渐进的训练过程,从较简单的例子开始,逐渐过渡到更复杂的例子——这种模式被称为“课程学习”。
然而令人惊讶的是,他们发现这种看似合理的策略对于过度参数化的(非常大)网络来说并不重要。
《统计力学:理论与实验》杂志的一项研究试图了解这种“失败”发生的原因,结果表明这些过度参数化的网络非常“丰富”,它们倾向于遵循一条基于数量(资源)而不是质量(按难度增加组织的输入)的路径进行学习。
这实际上可能是个好消息,因为它表明,通过仔细调整网络的初始大小,课程学习仍然是一种可行的策略,有可能创建更高效、因而更节能的神经网络。
人们对 ChatGPT 等基于神经网络的人工智能非常感兴趣:每天都会出现一个新的机器人或功能,每个人都想尝试一下,这种现象在科学研究和工业应用中也日益普遍。这需要增加计算能力,因此也需要增加能源消耗,人们对该行业所需的能源和产生的排放的担忧正在增加。因此,让这项技术能够用更少的资源做更多的事情至关重要。
神经网络是由许多执行计算的“节点”组成的计算模型,与生物大脑中的神经元网络有一点相似,能够根据所接收的输入自主学习。例如,它们“看到”大量图像,并学会在没有直接指导的情况下对内容进行分类和识别。
在专家中,众所周知,神经网络在训练阶段越大(即使用的参数越多),它执行所需任务的精度就越高。这种策略在技术术语中被称为“彩票假说”,其显著缺点是需要大量计算资源,以及所有相关问题(需要越来越强大的计算机,这需要越来越多的能量)。
为了找到解决方案,许多科学家研究了这类问题似乎已得到至少部分解决的地方:生物大脑。我们的大脑每天只吃两三顿饭,却能执行需要超级计算机和大量能量才能运行的神经网络任务。它们是如何做到的?
我们学习事物的顺序或许就是答案。“如果有人从未弹过钢琴,而你让他们听肖邦的曲子,他们不太可能在学习上取得很大进步,”负责协调这项研究的米兰博科尼大学物理学家卢卡·萨格列蒂解释说。“通常,整个学习过程要持续数年,从弹奏《一闪一闪小星星》开始,最终学会肖邦。”
当按难度递增的顺序向机器提供输入时,这被称为“课程学习”。然而,训练神经网络最常见的方法是将输入随机地提供给功能强大、过度参数化的网络。
一旦网络学会了,就可以减少参数数量——甚至低于初始数量的 10%——因为它们不再使用。但是,如果你只从 10% 的参数开始,网络就无法学习。因此,虽然人工智能最终可能会适合我们的手机,但在训练过程中,它需要大量的服务器。
科学家们一直想知道课程学习是否能节省资源。但迄今为止的研究表明,对于参数化程度过高的网络,课程学习似乎无关紧要:训练阶段的性能似乎没有得到改善。
Saglietti 和同事的新研究试图了解原因。
“我们已经看到,过度参数化的神经网络不需要这条路径,因为它不是通过示例学习来引导,而是由它拥有如此多的参数(这些资源已经接近它所需要的)这一事实来引导,”Saglietti 解释道。
换句话说,即使你为它提供优化的学习数据,网络也更愿意依赖其庞大的处理资源,在其自身内部找到只需稍加调整就能执行任务的部分。
这其实是个好消息,因为这并不意味着网络无法利用课程学习,而是由于初始参数数量较多,它们被推向了不同的方向。因此,原则上,人们可以找到一种方法,从较小的网络开始,采用课程学习。
“这是我们研究中探讨的假设的一部分,”Saglietti 解释道。
“至少在我们进行的实验中,我们观察到,如果我们从较小的网络开始,课程的效果(按精选顺序显示示例)开始显示出与随机提供输入时相比性能的改善。这种改进比当你不断增加参数到输入顺序不再重要的程度时更大。”
页:
[1]