计算马拉松将现有平台的效率与新型超级计算机的强大功能进行匹配
瑞士国家研究能力中心 NCCR MARVEL 的科学家团队花了大约 20 个小时和喝了很多咖啡才完成一场计算马拉松,这场马拉松展示了瑞士主要超级计算设施的强大功能,以及瑞士制造的计算材料科学软件工具的成熟度。阿尔卑斯超级计算机于 2024 年 9 月 14 日正式投入使用,是世界上最强大的超级计算机之一。它由瑞士国家超级计算中心 (CSCS) 管理,由主要位于卢加诺数据中心的地理分布式基础设施组成。
在验收阶段,CSCS 允许选定的研究小组访问 Alps,首批获得此机会的是 NCCR MARVEL 的成员,特别是 Giovanni Pizzi 的团队,该团队是 PSI 材料模拟实验室 (LMS) 的一部分,由 Nicola Marzari 领导,该团队使用计算方法为许多应用寻找新材料。
7 月 17 日至 18 日,在一天一夜的时间里,皮兹研究小组的 Marnik Bercx、Michail Minotakis 和 Timo Reents 等人开始了计算专家所说的“英雄运行”——在这段时间内,一台超级计算机完全为单个用户保留,以充分利用整台机器的全部功能来推进他们自己的研究,并展示他们高效利用整个系统巨大计算能力的能力。
PSI 团队希望利用 AiiDA 这一开源工具来匹配阿尔卑斯超级计算机的计算能力,它可以帮助材料科学家自动完成模拟材料(无论是现有材料还是等待被发现的材料)属性所需的漫长而复杂的计算。
具体来说,他们将 AiiDA 与 Alps 连接起来,进行高通量计算,其中数据库中存储的数千种不同材料结构可以并行计算。这种计算实验可以从数千种已知化合物中选出潜在的新电池材料,帮助实验人员将精力集中在最有前景的材料上。
Bercx 解释道:“我们想要证明 AiiDA 可以在数小时内以接近百亿亿次级的性能填满超级计算机的所有节点,并充分利用机器的强大功能,同时处理、运行和维护许多独立的工作流程,这对于高通量计算是必需的。”
运行由远程管理,AiiDA 软件安装在 PSI 服务器上,用于准备要执行的所有计算输入文件。实际计算使用广泛使用的 Quantum ESPRESSO 计算代码的增强版执行,该代码用于材料模拟,由 CSCS 的 NCCR MARVEL 内部开发的 Sirius 库提供支持,可以最佳地利用 Alps 图形处理单元 (GPU) 提供的强大计算能力,并实施新算法以显著提高模拟成功率。
当科学家们在选定日期的中午左右得到 CSCS 工作人员的批准后,他们开始将输入文件发送到 Alps 机器,然后将它们提交给调度软件,该软件将作业分配给 2033 个 NVIDIA Grace Hopper 节点(包括 8,132 个 GPU 和 585,504 个 CPU 核心),这些节点被授予进行英雄运行并排队。在连接的另一端,AiiDA 正在监控每项作业,以便一旦作业完成,就可以检索、解析和存储在 AiiDA 中,然后可以提交新的计算。
运行开始后,AiiDA 很快就将整个 Alps 超级计算机填满作业,充分发挥了其出色的计算能力。凌晨 3 点左右,团队理所当然地需要小憩一会儿,依靠 AiiDA 在他们不在的情况下继续准备和提交新作业。第二天上午 9 点左右,运行顺利结束。
Bercx 表示:“一切进展顺利,在整个英雄运行过程中,可用节点数量非常稳定,这说明基础设施的质量非常好。”近百亿亿次级机器的利用率达到 99.96%,这非常了不起,也是史无前例的——完全实现了 MARVEL NCCR 的目标,该组织致力于通过此类能力和基础设施实现计算材料发现。
最终,该团队在短短 16 小时内完成了近 100,000 次计算,相当于 Quantum ESPRESSO 的单次运行。更具体地说,这些计算涉及从 AiiDA 数据库中获取的约 20,000 个晶体结构的属性。
“我们选择了中等大小的结构,因为 Alps 非常强大,小结构无法有效利用计算能力,”Minotakis 解释道。“我们从由 40 个原子组成的结构开始,然后在后续提交中添加了略小和略大的结构。”
这些计算的目的是计算材料在基态下的电子特性,确定它们是否具有磁性,并计算它们的基态几何结构。
“我们还有想要测试的新赝势,所以我们更新了数据库中大部分结构的计算,并检查了与之前计算的差异,”Reents 说。所有结果将很快以 FAIR 和开放数据的形式发布,并上传到 NCCR MARVEL 的在线数据共享平台 Materials Cloud,以扩展无机 3D 晶体结构的 MC3D 数据库。
除了这些模拟的巨大科学价值之外,此次运行还展示了 AiiDA 的效率和稳定性,它可以无缝填充百亿亿次级机器的全部容量。
“新 Alps 机器的性能非常出色,与 AiiDA 的高吞吐量功能相结合时更是如此。令人印象深刻的是,我们可以在不到一天的时间内压缩相当于 CSCS 大型超级计算项目全年的计算能力,相当于上一代 CSCS 超级计算机 Daint 上约 800,000 个 GPU 小时的计算能力,”Pizzi 说。
由国家研究能力中心 (NCCR) MARVEL 提供
页:
[1]