Josiah02 发表于 2024-9-20 14:15:58

国家实验室如何淘汰和销毁大型计算资源

有没有想过,大型超级计算系统退役后会发生什么?令人惊讶的是,就数据而言,这与处理旧文件没有太大区别——它们直接进入碎纸机并送去回收。
2023 年底,位于美国能源部橡树岭国家实验室的 Summit 超级计算机(曾是全球最强大的超级计算机)计划退役并拆除,为实验室建造下一台世界领先的超级计算机做准备。但由于这台机器的生产力很高,因此决定继续运行 Summit 到 2024 年。
然而,通过 SummitPLUS 计划额外分配的一年需要用 Alpine2 替换旧的、故障的高性能存储系统 Alpine。工作人员在夏天开始拆除 Alpine 存储系统。
ORNL 国家计算科学中心基础设施运营小组组长保罗·阿布斯顿 (Paul Abston) 表示:“Summit 旨在对超新星和聚变反应堆进行大规模模拟。除了亚马逊、谷歌或微软之外,你很难找到比我们拥有更多硬盘的地方。因此,拆开 Alpine 是一项大工程,当然,安全和保障是第一位的。”
Summit 超级计算机于 2018 年推出,目前在全球最强大的超级计算机 TOP500 榜单中排名第 9。Alpine 是 IBM Spectrum Scale 并行文件系统,由美国能源部科学办公室用户设施 Oak Ridge Leadership Computing Facility 管理,用于临时存储来自 Summit 和其他支持系统的数据,包括用于 Summit 模拟数据预处理和后处理的计算集群 Andes。
Alpine 系统由 40 个机柜组成,占地面积约为 1,400 平方英尺。Alpine 的 250 PB 磁盘空间由 32,494 个硬盘提供。每个硬盘长约 6 英寸,宽约 4 英寸,重量略超过一磅。
“这 32,000 多个驱动器中的每一个都必须手动逐个移除。我们必须处理大约 20 吨的硬件,”阿布斯顿说。
为了确保硬盘上剩余的数据得到保护,硬盘从柜子中取出后,会被放入带锁的箱子中,并送至安全地点进行物理销毁。这时,粉碎机就派上用场了。
“它很像木材削片机”
这台粉碎机由田纳西州东部的一家小企业 ShredPro Secure 提供并运营,是一台约 4 英尺宽、齐腰高的移动式设备。技术人员将硬盘放入机器顶部的开口中,反向旋转的金属齿会将硬盘撕碎,并将其切成几英寸大小的不规则小条。移动式粉碎机每 10 秒可以粉碎一块硬盘,理论上每天最多可以处理 3,500 块硬盘。
“这很像一台碎木机。碎纸机的齿会将硬盘撕成小块,使其无法重建为可运行的硬盘,”阿布斯顿说。“尽管我们处理的不是机密数据,但这些数据仍然属于用户,我们有责任确保数据受到保护。”
驱动器被粉碎后,传送带会将其收集起来并放入垃圾箱,然后将其转移到更大的容器中并通过 ORNL 的金属回收计划进行回收。
“我们回收的任何金属,所得款项都会直接返还给橡树岭国家实验室的预算。因此,这不仅是一种环保方法,也更节省预算,”阿布斯顿说。
将节省的资金转嫁给
退役主要计算系统是一个不断发展的过程,经过阿布斯顿和他的团队多年来的不断完善。
他们上次停用 Alpine 这样的系统是在 2019 年,当时使用的是 Atlas 存储系统。Atlas 拥有大约 20,000 个硬盘,大小约为 Alpine 的三分之二。无论如何,Abston 回忆说,团队内部完成所有工作花了 9 个月的时间,而且成本要高得多。
通过与外部供应商合作,该团队能够处理来自 Alpine 以外的其他支持系统的硬盘,工作量增加了约 10,000 个硬盘。因此,他们在不到 2 个月的时间内完成了两倍的工作量,而这项任务以前需要 9 个月才能完成,而且成本显著降低。
此外,这次经验为实验室购买自己的碎纸机用于未来项目提供了一个商业案例,这将使 ORNL 节省更多成本并提高数据安全性。
“从长远来看,在我们的工厂现场进行粉碎意味着我们将找到一种更便宜的处理方法,从而节省纳税人的钱,”阿布斯顿说。
之前存储在 Alpine 上的用户数据已转移到其他 OLCF 存储系统。Summit 将持续运行至 2024 年 11 月 1 日。11 月 19 日,Alpine2 将切换为 Summit 的只读模式,然后重新配置为支持其他 OLCF 数据功能的近线存储系统。

页: [1]
查看完整版本: 国家实验室如何淘汰和销毁大型计算资源