找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 224|回复: 0

“大规模人工智能”方法加速科学家的原子模拟

[复制链接]

3297

主题

0

回帖

6594

积分

管理员

积分
6594
发表于 2024-12-13 15:06:11 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
分子系统的量子计算通常需要非凡的计算能力;这些计算通常在世界上最大的超级计算机上进行,以便更好地了解电池和半导体等现实世界的产品。
现在,加州大学伯克利分校和劳伦斯伯克利国家实验室 (Berkeley Lab) 的研究人员开发了一种新的机器学习方法,通过提高模型可扩展性显著加快了原子模拟速度。与现有模型相比,这种方法将模拟所需的计算内存减少了五倍以上,并将结果提供速度提高了十倍以上。
他们的研究成果已被人工智能和机器学习领域的会议和出版平台——神经信息处理系统 (NeurIPS) 2024接受。他们将于12 月 13 日在会议上展示他们的研究成果,他们的论文版本已在arXiv预印本服务器上发布。
加州大学伯克利分校研究生、研究论文合著者 Eric Qu 表示: “我们希望使用通常应用于大型语言模型的方法来构建一种不同类型的机器学习架构。通过我们的方法,研究人员可以更有效地绘制原子如何移动和相互作用。”
了解自然界最小的构成要素发生的变化可以加深对材料科学、化学、药物开发等基础科学学科的理解。
伯克利实验室计算化学家 Samuel Blau 表示:“该模型可以帮助科学家更有效地确定化学反应机制。如果你能理解现实世界系统中的复杂化学反应,你就能找到如何以新的方式控制它们。”
饥饿的体重秤
在过去十年中,科学家和工程师使用大量数据集和一种称为扩展的策略构建了像 ChatGPT 这样的大型语言模型。扩展涉及通过系统地增加神经网络中的参数数量来使这些模型变得更大、更智能。如何增加这些参数很重要:不同的参数以不同的方式影响模型性能,优化此过程可以带来显着的改进。
研究人员还可以在神经网络架构中设计更具表现力的新操作或组件(例如新颖的注意力机制),从而能够在保持或提高效率的同时进一步增加参数。
但这不仅仅关乎规模;扩展还意味着找到提高这些模型效率的方法,使用更智能的算法来节省训练和使用过程中的时间和计算能力。研究人员通常不会只关注原始处理能力,而是根据训练或运行这些模型的实际时间来衡量效率,优先考虑实际性能。
然而,缩放原理尚未广泛应用于另一种对科学家特别有用的机器学习模型:神经网络原子间势 (NNIP)。NNIP 是计算成本高昂的量子力学模拟的有效替代方案,可让研究人员更快地预测分子和材料特性。
“NNIP 正在迅速成为分子或材料模拟最强大的方法,”论文合著者、加州大学伯克利分校助理教授、伯克利实验室应用数学和计算研究部教员科学家 Aditi Krishnapriyan 表示。“以前,大规模设计巧妙算法主要在机器学习的其他领域开发,例如大型语言模型,而在研究材料、化学或物理方面则较少。”
因此,伯克利团队开发了一种可以有效扩展的 NNIP 架构。Krishnapriyan 表示,该架构被称为高效扩展注意力原子间势 (EScAIP),代表着机器学习模型在科学应用方面的扩展迈出了重要一步。
数据下雨
虽然 ChatGPT 等大型语言模型是在文本上进行训练的,而互联网上存在数万亿个文本示例,但 NNIP 依赖​​于计算研究中常见的一种名为密度泛函理论 (DFT) 的技术生成的数据。
DFT 是一种基于物理的数值方法,它使用量子力学来预测原子在分子和材料中的相互作用。尽管 DFT 模拟非常强大,但它们的计算成本也很高,并且生成大量 DFT 训练数据可能非常耗时。机器学习可以作为 DFT 的替代模型来加速这些模拟。直到最近才发布了包含 1 亿个数据点的 DFT 数据集,而之前的数据集最多只有 100 万到 200 万个,这为 NNIP 的扩展奠定了基础。
然而,当前包含物理约束的 NNIP 模型通常需要大量的计算机硬件、内存和处理时间,并且还可能使优化神经网络参数变得非常复杂。相比之下,EScAIP 不包含大量内置物理约束;相反,它专注于使机器学习模型尽可能具有表现力,包括设计一种针对原子设置定制的新注意力机制。
这种方法使 EScAIP 能够捕捉数据中的复杂模式,并直接从数据本身学习关键的物理见解,而无需明确的约束。例如,经过训练后,EScAIP 可以在新的、未见过的原子系统上准确地将任何原子方向映射到预测的力,从而捕捉一种称为旋转等变性的对称性。
Blau 表示:“新的 EScAIP 模型可以在几天内训练 1 亿个数据点,而物理受限的 NNIP 则需要数周或数月。”因此,能够有效训练这些模型的研究小组数量急剧增加。
“我们确实相信,利用以前难以获得的工具可以帮助人们实现他们的科学目标,”Qu 补充道。“EScAIP 为拥有不同资源的科学家提供了机会。”
EScAIP 比之前最先进的 NNIP 有了显著的改进,经过训练的模型在涵盖不同化学系统的常见 NNIP 基准数据集上取得了最佳性能,包括催化剂(如开放催化剂项目)、材料(如材料项目)和分子(如SPICE)。
在 Open Catalyst 等数据集上,它也是第一个排名靠前的模型,该模型完全由学术和国家实验室的研究人员开发和训练,而不是由大型科技公司的团队开发和训练。然而,Qu 和 Krishnapriyan 认为,该模型应该被视为迈向新方向的第一步。
Krishnapriyan 表示:“我们想告诉科学界,‘嘿,看这里,让我们进一步探索这个想法。’EScAIP 是关于如何在原子系统背景下扩展机器学习模型的初步概念验证,现在代表了可能性的‘下限’。我们认为,随着我们进入拥有更多数据和计算资源的未来,这是我们应该考虑的方向。”
Krishnapriyan 表示,EScAIP 起源于伯克利实验室实验室指导研究与开发 (LDRD) 项目,即开发新的物理信息机器学习方法,该项目帮助形成了其基本理念。她强调,利用美国能源部 (DOE) 国家能源研究科学计算中心 (NERSC) 的大量 GPU 资源对于开发和训练大规模数据集上的模型至关重要。通过同时使用多个 GPU,该团队在 Open Catalyst 数据集上取得了最佳性能——这是一项了不起的成就,尤其是作为唯一一支以少得多的资源做到这一点的非科技公司团队。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2025-1-22 13:51 , Processed in 0.026045 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表