计算机工程师开创节能超级计算方法

Josiah02 · 发表于 2024-9-12 15:19:25

随着高科技公司加紧建设大型数据中心以满足人工智能业务的热潮，有一种组件正变得越来越稀缺：电力。
美国能源信息署 (US Energy Information Administration) 的数据显示，近年来商业用电需求急剧增长，预计仅 2024 年就将增长 3%。但这一增长仅由几个州推动，这些州正迅速成为大型计算设施的中心，例如弗吉尼亚州和德克萨斯州。
房地产服务公司 CBRE 在其“2024 年全球数据中心趋势”研究中报告称，2024 年第一季度北美数据中心的库存同比增长了 24.4%。电力研究所在 2024 年白皮书中指出，这些新建数据中心的容量为 100 至 1,000 兆瓦，或大约相当于可以为 80,000 至 800,000 户家庭供电的负荷。
在本文中，EPRI 分析了人工智能和数据中心的能源消耗，并预测如果预计每年 10% 的高增长率持续下去，到 2030 年，数据中心每年将消耗美国总发电量的 6.8%（而目前估计为 4%）。
为了满足这一不断增长的需求，高盛研究估计，美国公用事业公司将需要投资约 500 亿美元用于新的发电能力。与此同时，一些地区社区对数据中心建设的反对也在增加，因为基层组织抗议越来越多的数据中心可能对当地造成影响，以及它们对人工智能电力和冷却用水的需求不断增加。
国家私营企业能否完成推动人工智能“革命”的艰巨挑战，可能更多地取决于创造力而非资金。世邦魏理仕的这项研究得出了一个有益的、或许是充满希望的建议：“高性能计算 [或 HPC] 将需要在数据中心设计和技术方面进行快速创新，以应对不断增长的功率密度需求。”
橡树岭领导计算设施是位于橡树岭国家实验室的美国能源部科学办公室用户设施，研究节能超级计算的新方法一直是其使命的一部分。
自 2004 年成立以来，OLCF 已投入使用五代世界一流的超级计算系统，这些系统每秒浮点运算（或 Flops）的能效提高了近 2,000 倍。OLCF 的最新超级计算机 Frontier 目前在全球最强大计算机TOP500 榜单中名列第一，并在 2022 年首次登上全球最节能计算机Green500 榜单榜首。
保持电费负担得起与成为政府资助的设施密切相关。但建造和维护领导超级计算机不再只是政府的职责。大型科技公司已经大举进入高性能计算领域，但现在才开始担心这些大型系统消耗了多少电力。
“我们的机器一直是地球上最大的，但情况已不再如此。私营公司现在部署的机器比 Frontier 大几倍。如今，他们基本上拥有无限的雄厚财力，因此他们可以轻松地建立一个数据中心而不必担心效率，”ORNL 国家计算科学中心 (NCCS) 首席技术官 Scott Atchley 表示。“一旦他们的电力受到更多限制，这种情况就会改变，他们会希望获得最大的收益。”
凭借数十年提高 HPC 能源效率的经验，OLCF 可以成为这个突然蓬勃发展的行业中最佳“物有所值”实践的资源。
“我们拥有独特的优势，能够影响 HPC 的整个能效生态系统，从应用程序到硬件再到设施。你需要在这三个领域都提高效率才能解决这个问题，”OLCF 项目总监 Ashley Barker 说。
“努力提高能源效率体现在我们设施的方方面面。我们可以购买最节能的硬件是什么？我们可以以最节能的方式运行该硬件吗？我们可以以最节能的方式调整在硬件上运行的应用程序吗？”
当 OLCF 计划推出 Frontier 的继任者（称为 Discovery）时，这些问题每天都会被提出，因为不同的团队将共同努力，在 2028 年之前交付一台新的超级计算机，该计算机也将展示 HPC 的下一代能源效率。
系统硬件
过去 30 年中最重要的计算效率进步之一源自一个意想不到的来源：视频游戏。
更具体地说，创新源自芯片制造商之间的竞争，以满足视频游戏行业对日益复杂的游戏图形的需求。为了实现吸引游戏玩家的逼真视觉效果，个人电脑和游戏机需要专用芯片（也称为图形处理单元，简称 GPU）来渲染精细的动态图像。
如今，GPU 已成为大多数超级计算机不可或缺的一部分，尤其是用于训练人工智能模型的超级计算机。2012 年，当 OLCF 率先利用其 Titan 超级计算机在领导级 HPC 中使用 GPU 时，该设计被认为是对仅依赖中央处理器 (CPU) 的传统系统的大胆突破。
它要求计算科学家调整他们的代码，充分利用 GPU 处理简单计算的能力，加快解决问题的速度。计算机解决特定问题所花的时间越少，它在给定时间范围内能解决的问题就越多。
“从设计上讲，GPU 比 CPU 更节能。为什么它更高效？如果你要给计算机供电，并希望它能非常高效地进行计算，那么你希望几乎所有的电力都用于浮点运算。你希望尽可能多的硅片区域只用于浮点单元，而不是每个 CPU 芯片上的所有其他东西。
“GPU 几乎是纯浮点单元。当你给配备 GPU 的机器通电时，它所消耗的能量大约是只有 CPU 的机器的十分之一，”ORNL 的 Frontier 项目主管 Al Geist 说道。
OLCF 在 2012 年押注 GPU，这一赌注在接下来的十年里获得了回报，随着每一代 OLCF 超级计算机都增加了速度更快的 GPU 数量，系统也变得越来越节能。这一演变最终催生了 Frontier 架构，该架构于 2022 年推出，是世界上第一台百亿亿级超级计算机，每秒可进行超过 1 千万亿次计算，由 9,408 个计算节点组成。
然而，当 2008 年开始讨论百亿亿次级计算时，百亿亿次级计算研究小组发布了一份报告，概述了其面临的四大挑战，其中最重要的是功耗。报告预计每年的电费可能高达 5 亿美元。即使考虑到 2015 年预计的技术进步，该报告预测，一个简化的 1 百亿亿次级计算系统将消耗 150 兆瓦的电力。
“能源部说，‘这根本行不通。’我们问，什么才是可以接受的？答案是，‘我们不希望你在电力上的花费超过机器的成本，’”盖斯特说。“在 2009 年的时间范围内，超级计算机的成本约为 1 亿美元。它们的使用寿命约为五年。
“最终，我们可以在电力上花费每年约 2000 万美元。这 2000 万美元能产生多少兆瓦的电力？事实证明，在东田纳西州，1 兆瓦电力大约需要 100 万美元一年。因此，这就是我们设定的目标：每百亿亿次浮点运算系统 20 兆瓦。”
当时还没有明确的途径来实现这一能耗目标。因此，美国能源部科学办公室于 2012 年启动了 FastForward 和 DesignForward 项目，与供应商合作推进新技术。
FastForward 最初专注于处理器、内存和存储供应商，以解决性能、功耗和弹性问题。后来，它将重点转移到节点设计（即单个计算服务器）。DesignForward 最初专注于将网络扩展到预期的系统规模，后来专注于整个系统的封装、集成和工程。
在 FastForward 投资的帮助下，半导体芯片供应商 AMD 为 Frontier 开发了更快、更强大的计算节点（由 64 核第三代 EPYC CPU 和四个 Instinct MI250X GPU 组成），并找到了一种提高 GPU 效率的方法，即关闭芯片中未使用的部分，然后在需要时在短短几毫秒内将其重新打开。
“在过去，整个系统会亮起并闲置在那里，仍然在消耗电力。现在我们可以关闭所有未使用的东西——而不仅仅是整个 GPU。在 Frontier 上，每个 GPU 上大约 50 个不同的区域如果未使用，可以单独关闭。现在，不仅硅片区域主要用于浮点运算，而且事实上我不会在任何未使用的东西上浪费任何能量，”Geist 说。
然而，随着下一代超级计算机的出现，即使采用更新、更先进的架构，仅仅继续添加更多 GPU 来实现每瓦更多的计算量可能已经达到收益递减点。
“处理器供应商必须想出各种办法，才能取得微小的、渐进式的改进。这不仅适用于能源效率，也适用于性能。他们正在尽可能地提高硅片的性能，”Atchley 说。
“我们一直受益于摩尔定律：晶体管变得更小、更便宜、速度更快。我们的应用程序运行速度更快，而价格却相同甚至更低。那个世界已经结束了。有些可能的技术可能会给我们带来一些飞跃，但对我们最有帮助的是更加综合、更全面的能源效率方法。”
系统操作
王飞翼是 OLCF 大规模分析和人工智能方法 (AAIMS) 小组的负责人，他花了很多时间思考一个难以实现的目标：如何操作超级计算机以减少能耗。解决这个问题首先需要收集大量 HPC 操作数据。
早在 Frontier 建成之前，他和 AAIMS 团队就从 Summit 收集了超过一年的功率分析数据。Summit 是 OLCF 于 2018 年推出的 200 petaflop 超级计算机。Summit 的 4,608 个节点各自拥有超过 100 个传感器，以 1 赫兹的频率报告指标，这意味着每秒系统都会报告超过 460,000 个指标。
利用这个 10TB 的数据集，王的团队从头到尾分析了 Summit 的整个系统，包括包含所有冷却机械的中央能源工厂。他们将系统的作业分配历史叠加在遥测数据上，为超过 840,000 个作业构建了每个作业的细粒度功耗配置文件。这项工作为他们赢得了2021 年国际高性能计算、网络、存储和分析会议 (SC21) 的最佳论文奖。
这项努力还使王先生产生了一些想法，即如何利用这些数据来做出明智的运营决策，从而提高能源效率。
利用来自 Summit 的能源概况数据集，王先生和他的团队启动了科学智能设施项目，为 HPC 系统提供持续的生产洞察，并为系统操作员提供“数据驱动的运营智能”，王先生说道。
“我希望将这种持续监控更进一步发展为‘持续集成’，这意味着我们希望将计算机的持续指标集成到一个系统中，以便用户可以观察他们在特定工作应用中的能源使用情况。更进一步地说，我们还希望实现‘持续优化’，从单纯的监控和集成到实际优化工作，”王说。
王的另一个想法可能有助于实现这一目标。在 SC23 上，王和主要作者、AAIMS 小组高级研究科学家 Wes Brewer 发表了题为“面向百亿亿次超级计算机综合数字孪生的开发”的演讲。他们提出了一个名为 ExaDIGIT 的框架，该框架使用增强现实 (AG) 和虚拟现实 (VR) 来提供有关设施如何运行以提高其整体能源效率的整体见解。
如今，ExaDIGIT 已经发展成为一个拥有 10 个国际和行业合作伙伴的合作项目，Brewer 将在佐治亚州亚特兰大的SC24上展示该团队的最新论文。
在 ORNL，AAIMS 小组启动了 Frontier 数字孪生项目，以构建 Frontier 超级计算机的模拟。这个虚拟 Frontier 将使操作员能够在实际 Frontier 机器上尝试节能方案之前，先试验“如果我们尝试一下会怎样？”。如果你提高 Frontier 冷却系统的进水温度，这会提高其效率吗？还是会使其面临冷却不足的风险，从而增加其故障率？
“Frontier 是一个价值极高的系统，你不能只是说‘我们来试试吧。让我们在系统上做实验吧’，因为如果你做错了，后果可能是毁灭性的，”王说。“但有了这个数字孪生的想法，我们可以把所有的遥测数据放到一个系统中，如果我们对系统的电源和冷却方面有足够高的保真度建模，我们就可以进行实验。如果我改变这个设置，它会对系统产生积极影响吗？”
Frontier 的数字孪生可以在台式计算机上运行，使用 VR 和 AR 可以让操作员在调整参数时以更具交互性和直观的方式检查系统遥测数据。AAIMS 小组还创建了一个虚拟调度系统来检查数字孪生的功耗以及它在运行作业时随时间的变化情况。
尽管虚拟 Frontier 仍在开发中，但它已经让人们了解到工作负载如何影响其冷却系统，以及整流过程中（将交流电转换为直流电的过程）的功率损耗。该系统还用于预测 Discovery 未来的电力和冷却需求。
王先生表示：“我们可以而且将会调整我们的开发和系统以解决 OLCF 当前和未来面临的任何紧迫挑战。”
设施基础设施
为超级计算机供电不仅仅意味着启动它，还意味着为支持它的整个设施供电。最关键的是冷却系统，它必须消除数据中心所有计算机机柜产生的热量。
“从 10,000 英尺的高度来看，超级计算机实际上只是一个巨大的加热器——我从电网获取电力，将其输入这个大盒子，由于使用电力，它变热了。现在我必须将更多的电力输入空调，再次冷却它，这样我才能让它继续运行，而不会融化，”盖斯特说。
“数据中心内部需要做大量工作才能更有效地冷却这些大型机器。从 2009 年到 2022 年，我们将冷却所需的能源减少了 10 倍，我们的团队将继续进行冷却优化。”
这些冷却优化的大部分规划由 ORNL 实验室现代化部门的首席 HPC 机械工程师 David Grant 领导。Grant 负责监督新机械设施的设计和建造，并主要负责确保 OLCF 安装的每个新超级计算机系统都具有所需的冷却能力，以便全天候可靠运行。
他于 2009 年开始在 ORNL 工作，负责 Jaguar 超级计算机的运营。随后，他于 2012 年参与了 Jaguar 超级计算机向 Titan 的过渡，并领导了 Summit 的基础设施设计，以便于 2018 年推出，最近他负责监督支持 Frontier 的所有工程工作。
在此期间，OLCF 的冷却系统随着芯片技术的发展而得到了大幅改进，从捷豹的大声风扇和基于冷却器的空调转变为 Frontier 的无风扇液体冷却。
此外，冷却计算节点所需的水温已从 Titan 的 42°F 上升到 Frontier 的 90°F——这是 FastForward 计划设定的目标。额外的热量可以节省大量能源，因为循环水不再需要冷藏，而是可以通过蒸发塔充分冷却。
格兰特说：“我们试图从机柜中回收尽可能热的水，同时为它们提供最高的供水温度——供水温度越高越好。”
“回流的热水使我们能够最大限度地减少系统设施侧必须循环的流量，从而节省泵送能量。然后，更高的温度使我们的冷却塔能够更有效地将热量排放到环境中。”
Frontier 的电源使用效率 (PUE)（计算机数据中心设施使用的总功率与输送到计算设备的功率之比）在峰值使用时为 1.03。这实际上意味着每产生 1,000 瓦热量，仅需额外 30 瓦电能即可维持系统适当的热范围。
根据 Uptime Institute 的数据，全球数据中心的行业平均 PUE 约为 1.47 。
进一步降低“发现号”等速度更快的系统的耗电量将需要更多创新方法，格兰特公司正在对此进行研究。
首先，回收（或使用）Discovery号部分余热的概念可能具有一定的前景。如果可以将余热从冷却系统转移到加热系统，该设施就非常适合再利用余热。但这项任务具有挑战性，因为加热系统的温度很高，冷却系统的热量很低，而且HPC系统产生的热量具有高度动态性。
其次，即将投入使用的 Discovery 系统将共享 Frontier 的冷却系统。这种组合配置有望提高运行效率。
“目前，Frontier 拥有自己的冷却系统，我们已经针对此类操作对其进行了优化。但如果 Frontier 需要高达 30 兆瓦的电力，而另一个系统又需要同样多的电力，这会对我们的冷却系统造成什么影响？
“它的设计初衷就是为了实现这一点，但我们将在它之前从未见过的作战范围内的不同位置进行操作。因此，一旦我们到达那里，就会出现新的机遇，”格兰特说。
第三，格兰特正在研究建筑和设备选择如何有利于设施的整体能源效率。例如，Frontier 的冷却系统有 20 个独立的冷却塔，需要一个称为“平息”的过程来帮助保护其内部金属表面，而这个过程需要大量的泵送。如果新建的冷却塔不再需要平息过程，则可以省去这一步骤。
第四，超级计算机的空闲时间会消耗大量电力——Frontier 的空闲负载为 7 到 8 兆瓦。如果可以大大减少或消除空闲负载会怎样？
格兰特说：“当我们与在软件方面有影响力的客户互动时，我们会尝试向他们传达他们的决策将如何通过冷却系统和设施能源使用转化为现实。”
“我认为软件方面有很大潜力可以尝试减少空闲负载要求，使其模型尽可能高效运行，并提高系统的利用率。作为回报，他们将获得更高的数据产量。”
应用
优化科学应用程序以使其在 OLCF 超级计算机上更高效地运行是 NCCS 科学参与部门负责人 Tom Beck 和 NCCS 算法与性能分析小组杰出研究科学家 Trey White 的专长。让代码更快地返回结果并不是一个新概念，但现在的目标已经不再只是单纯的速度。
“长期以来，人们一直希望让他们的代码运行得更快，而这正是我们一直关注的——运行更快的应用程序这一唯一目标，同时也能减少能源使用，”怀特说。
“硬件的速度仍在提高，只是没有以前那么快了，所以现在我们必须从时间和能源效率的角度来看待应用程序。在大多数情况下，运行速度越快，耗能越少，但这并不是完美的对应关系。所以，我们现在开始考虑两者之间的权衡。”
该团队正在研究的一个领域是 GPU 的工作频率如何影响其能耗。GPU 实现最快吞吐量的最大频率不一定是最节能的频率。
“但是如果你从最大频率开始，然后降低 5% 到 10%，有迹象表明你可能会节省 20% 或 25% 的能源。所以，这是一个套利，你愿意放弃一点性能来获得更大的能源节省吗？”贝克说。
“以前，计算机使用的最大时钟频率通常为所有项目设置为一个数字。但现在我们正在考虑根据每个应用程序甚至在一次运行中调整它，”怀特说。“那个‘频率旋钮’就是时间和能源效率之间权衡的一个例子，我们正在研究如何让用户做出选择。”
该团队正在探索的另一个领域是混合精度算法的使用。从历史上看，64 位全精度浮点算法被认为是科学应用中计算精度的标准。自 21 世纪初以来，功能越来越强大的超级计算机使全精度算法的使用速度几乎与 32 位单精度算法一样快。
现在，随着人工智能市场的崛起，低精度算法（16 位或更少）已证明其足够准确，可用于训练神经网络和其他数据科学应用。在 GPU 的推动下，低精度计算可以大幅提高速度并节省能源。
“使用较低的精度对用户来说是一个可怕的情况，因为每个人都习惯于假设全精度是 64 位，部分原因是它已经存在并且可以访问，”贝克说。
“如果你开始偏离 64 位，它可能会以非线性的方式影响整个代码，很难追踪到底发生了什么。所以这是我们研究策略的一部分——对在某些应用中采用混合精度算法的影响进行广泛的研究。”
另一个可能提高能源效率的领域是数据传输——数据移动越少，所需的电力就越少。这项工作可以通过构建减少数据移动的软件算法来实现。贝克希望为用户提供饼图，显示算法每个不同操作所用电量的百分比，从而让他们确定潜在的减排目标。
“如果不进行彻底的硬件变革或架构革命，应用程序才是人们现在真正寻求提高能效的地方，”贝克说。“很可能，这不是一场通过编码获得 300% 改进的游戏。”
“我们确实有可以改进的地方，但这可能是一个渐进的过程，这里 3%，那里 5%。但如果你能通过一系列的改变积累起来，达到 20%，那就是一项巨大的成就。”

账号		自动登录	找回密码
密码			立即注册