研究人员探索如何使更大的神经网络更接近生物大脑的能源效率

Josiah02 发表于昨天 15:56

买的彩票越多，中奖的几率就越高，但花费比中奖更多的钱显然不是一个明智的策略。深度学习驱动的人工智能也发生了类似的事情：我们知道神经网络越大（即参数越多），它就越能更好地学习我们为其设定的任务。
然而，在训练过程中将其无限大这一策略不仅不可能，而且效率极低。科学家们试图模仿生物大脑的学习方式，这种方式资源利用率极高，他们为机器提供了一个循序渐进的训练过程，从较简单的例子开始，逐渐过渡到更复杂的例子——这种模式被称为“课程学习”。
然而令人惊讶的是，他们发现这种看似合理的策略对于过度参数化的（非常大）网络来说并不重要。
《统计力学：理论与实验》杂志的一项研究试图了解这种“失败”发生的原因，结果表明这些过度参数化的网络非常“丰富”，它们倾向于遵循一条基于数量（资源）而不是质量（按难度增加组织的输入）的路径进行学习。
这实际上可能是个好消息，因为它表明，通过仔细调整网络的初始大小，课程学习仍然是一种可行的策略，有可能创建更高效、因而更节能的神经网络。
人们对 ChatGPT 等基于神经网络的人工智能非常感兴趣：每天都会出现一个新的机器人或功能，每个人都想尝试一下，这种现象在科学研究和工业应用中也日益普遍。这需要增加计算能力，因此也需要增加能源消耗，人们对该行业所需的能源和产生的排放的担忧正在增加。因此，让这项技术能够用更少的资源做更多的事情至关重要。
神经网络是由许多执行计算的“节点”组成的计算模型，与生物大脑中的神经元网络有一点相似，能够根据所接收的输入自主学习。例如，它们“看到”大量图像，并学会在没有直接指导的情况下对内容进行分类和识别。
在专家中，众所周知，神经网络在训练阶段越大（即使用的参数越多），它执行所需任务的精度就越高。这种策略在技术术语中被称为“彩票假说”，其显著缺点是需要大量计算资源，以及所有相关问题（需要越来越强大的计算机，这需要越来越多的能量）。
为了找到解决方案，许多科学家研究了这类问题似乎已得到至少部分解决的地方：生物大脑。我们的大脑每天只吃两三顿饭，却能执行需要超级计算机和大量能量才能运行的神经网络任务。它们是如何做到的？
我们学习事物的顺序或许就是答案。“如果有人从未弹过钢琴，而你让他们听肖邦的曲子，他们不太可能在学习上取得很大进步，”负责协调这项研究的米兰博科尼大学物理学家卢卡·萨格列蒂解释说。“通常，整个学习过程要持续数年，从弹奏《一闪一闪小星星》开始，最终学会肖邦。”
当按难度递增的顺序向机器提供输入时，这被称为“课程学习”。然而，训练神经网络最常见的方法是将输入随机地提供给功能强大、过度参数化的网络。
一旦网络学会了，就可以减少参数数量——甚至低于初始数量的 10%——因为它们不再使用。但是，如果你只从 10% 的参数开始，网络就无法学习。因此，虽然人工智能最终可能会适合我们的手机，但在训练过程中，它需要大量的服务器。
科学家们一直想知道课程学习是否能节省资源。但迄今为止的研究表明，对于参数化程度过高的网络，课程学习似乎无关紧要：训练阶段的性能似乎没有得到改善。
Saglietti 和同事的新研究试图了解原因。
“我们已经看到，过度参数化的神经网络不需要这条路径，因为它不是通过示例学习来引导，而是由它拥有如此多的参数（这些资源已经接近它所需要的）这一事实来引导，”Saglietti 解释道。
换句话说，即使你为它提供优化的学习数据，网络也更愿意依赖其庞大的处理资源，在其自身内部找到只需稍加调整就能执行任务的部分。
这其实是个好消息，因为这并不意味着网络无法利用课程学习，而是由于初始参数数量较多，它们被推向了不同的方向。因此，原则上，人们可以找到一种方法，从较小的网络开始，采用课程学习。
“这是我们研究中探讨的假设的一部分，”Saglietti 解释道。
“至少在我们进行的实验中，我们观察到，如果我们从较小的网络开始，课程的效果（按精选顺序显示示例）开始显示出与随机提供输入时相比性能的改善。这种改进比当你不断增加参数到输入顺序不再重要的程度时更大。”

页: [1]

NewCET's Archiver

研究人员探索如何使更大的神经网络更接近生物大脑的能源效率