大规模神经网络模型是许多基于人工智能的技术的基础,例如神经形态芯片,这些技术灵感来自人类大脑。训练这些网络可能非常繁琐、耗时且能源效率低下,因为模型通常先在计算机上训练,然后再传输到芯片上。这限制了神经形态芯片的应用和效率。
埃因霍温理工大学的研究人员通过开发一种能够进行片上训练的神经形态设备解决了这个问题,从而无需将训练好的模型传输到芯片上。这可能为高效专用的人工智能芯片开辟一条道路。
你有没有想过,你的大脑到底有多神奇?它是一台强大的计算机,而且速度快、动态强、适应性强,而且非常节能。
这些属性的结合启发了埃因霍温理工大学的研究人员,包括 Yoeri van de Burgt,他们在学习至关重要的技术中模仿大脑的工作方式,例如交通、通信和医疗保健领域的人工智能 (AI) 系统。
神经连接
埃因霍温理工大学机械工程系副教授范德伯格特 (Van de Burgt) 表示:“你很可能会发现这种人工智能系统的核心是一个神经网络。”
神经网络是受大脑启发的计算机软件模型。在人脑中,神经元通过突触与其他神经元交流,两个神经元之间的交流越多,它们之间的连接就越强。在由节点组成的神经网络模型中,任何两个节点之间的连接强度由一个称为权重的数字给出。
“神经网络可以帮助解决大量数据的复杂问题,但随着网络规模越来越大,它们带来的是能源成本和硬件限制的增加,”范德伯格特说。“不过,有一种基于硬件的替代方案很有前途——神经形态芯片。”
神经形态捕获
和神经网络一样,神经形态芯片的灵感来自大脑的工作方式,但模仿程度却提升到了一个全新的水平。在大脑中,当神经元中的电荷发生变化时,它就会发射并向相连的神经元发送电荷。神经形态芯片复制了这一过程。
“神经形态芯片中存在着忆阻器(记忆电阻器的简称)。这些电路设备可以‘记住’过去有多少电荷流过它们,”范德伯格特说。“而这正是模拟大脑神经元如何存储信息和相互交流的设备所需要的。”
但神经形态学有一个问题——它与人们基于神经形态芯片训练硬件的两种方式有关。第一种方式是在计算机上进行训练,并将网络权重映射到芯片硬件上。
另一种方法是现场或在硬件中进行训练,但目前的设备需要逐个编程,然后进行错误检查。这是必需的,因为大多数忆阻器都是随机的,如果不检查设备,就不可能更新设备。
“这些方法在时间、能源和计算资源方面成本高昂。要真正发挥神经形态芯片的能源效率,需要直接在神经形态芯片上进行训练,”Van de Burgt 说。
从左到右:Yoeri van de Burgt、Tim Stevens 和 Marco Fattori。图片来源:Bart van Overbeeke
这正是 Van de Burgt 和埃因霍温理工大学的同事们取得的成果,并在《科学进展》杂志上发表了一篇新论文。Van de Burgt 说:“这是一次真正的团队合作,全部由共同第一作者 Tim Stevens 和 Eveline van Doremaele 发起。”
研究的故事可以追溯到蒂姆·史蒂文斯的硕士历程。“在我攻读硕士期间,我对这个课题产生了兴趣。我们已经证明了,只在硬件上进行训练是可能的。无需将训练好的模型转移到芯片上,这一切都可能为人工智能应用带来更高效的芯片,”史蒂文斯说。
Van de Burgt、Stevens 和 Van Doremaele(2023 年她完成了神经形态芯片方面的博士论文答辩)在硬件设计过程中需要一些帮助。因此,他们向电气工程系的 Marco Fattori 求助。
“我的团队在芯片电路设计方面提供了帮助,”法托里说。“能够参与这个多学科项目真是太棒了,芯片制造人员可以与软件人员一起工作。”
对于范德伯格来说,该项目还表明,伟大的想法可以来自学术阶梯的任何层级。“蒂姆在硕士研究中看到了更大程度地利用我们设备特性的潜力。这是所有项目都要吸取的教训。”
双层训练
对于研究人员来说,主要的挑战是将片上训练所需的关键组件集成到单个神经形态芯片上。“要解决的主要任务是纳入电化学随机存取存储器 (EC-RAM) 组件,”Van de Burgt 说。“这些组件模拟了大脑神经元的电荷存储和放电。”
研究人员基于由有机材料制成的 EC-RAM 组件制作了一个两层神经网络,并使用广泛使用的梯度下降反向传播训练算法的改进版本对硬件进行了测试。“传统算法经常用于提高神经网络的准确性,但这与我们的硬件不兼容,所以我们想出了自己的版本,”史蒂文斯说。
更重要的是,随着许多领域的人工智能迅速成为不可持续的能源资源消耗,以极低的能源成本在硬件组件上训练神经网络的机会对于许多应用来说都是一个诱人的可能性——从 ChatGPT 到天气预报。
下一步
虽然研究人员已经证明新的训练方法是有效的,但下一步合理的做法是采取更大、更大胆、更好的措施。
“我们已经证明这种方法适用于小型双层网络,”范德伯格特说,“下一步,我们希望让业界和其他大型研究实验室参与进来,这样我们就可以构建更大的硬件设备网络,并用实际数据问题对其进行测试。”
下一步,研究人员将证明这些系统在训练以及运行有用的神经网络和人工智能系统方面非常高效。“我们希望将这项技术应用于几个实际案例,”范德伯格特说。“我的梦想是让这类技术在未来成为人工智能应用的常态。”