一个小更新导致全球数百万 IT 系统瘫痪——这是一个及时的警告

Josiah02 发表于 2024-7-23 09:20:27

　　本周末，由于软件更新出错而导致的全球 IT 中断凸显了现代 IT 基础设施相互关联且往往脆弱的特性。它表明单点故障可能会带来深远的后果。
　　此次中断与Crowdstrike Falcon的一次自动更新有关。Crowdstrike Falcon是一款无处不在的网络安全工具，主要由大型组织使用。该更新导致全球各地的 Microsoft Windows 计算机崩溃。
　　CrowdStrike 已经修复了该问题。虽然许多组织现在已经能够恢复工作，但 IT 团队需要一些时间才能完全修复所有受影响的系统——其中一些工作必须手动完成。
　　怎么会这样呢？
　　许多组织都依赖相同的云提供商和网络安全解决方案。结果形成了一种数字单一文化。
　　虽然这种标准化意味着计算机系统可以高效运行，并且具有广泛的兼容性，但这也意味着问题可能会波及许多行业和地区。正如我们现在在 CrowdStrike 案例中看到的那样，它甚至可以波及整个全球。
　　现代 IT 基础设施高度互联且相互依赖。如果一个组件发生故障，则可能导致该组件引发连锁反应，进而影响系统的其他部分。
　　随着软件及其所运行的网络变得越来越复杂，出现不可预见的交互和错误的可能性也随之增加。一个小更新就可能带来意想不到的后果，并迅速蔓延到整个网络。
　　正如我们现在看到的，在监督人员能够做出反应阻止之前，整个系统可能会陷入停滞。
　　微软是如何参与其中的？
　　当各地的 Windows 计算机开始崩溃并出现“蓝屏死机”信息时，早期报告称此次 IT中断是由微软造成的。
　　事实上，微软证实其在美国中部地区经历了云服务中断，中断始于 2024 年 7 月 18 日星期四东部时间下午 6 点左右。
　　此次中断影响了使用各种 Azure 服务的部分客户。Azure是Microsoft 的专有云服务平台。
　　Azure 故障影响深远，扰乱了多个行业的服务，包括航空、零售、银行和媒体。不仅在美国，而且在澳大利亚和新西兰等国家也受到了影响。它还影响了各种 Microsoft 365 服务，包括 PowerBI、Microsoft Fabric 和 Teams。
　　事实证明，整个 Azure 中断也可以追溯到 CrowdStrike 更新。在这种情况下，它影响了安装了 Falcon 的运行 Windows 的 Microsoft 虚拟机。
　　我们可以从这一事件中学到什么？
　　不要把所有的IT资源都放在一个篮子里。
　　公司应采用多云策略：将其 IT 基础设施分布在多个云服务提供商上。这样，如果一家提供商出现故障，其他提供商可以继续支持关键运营。
　　公司还可以通过在 IT 系统中建立冗余来确保其业务持续运营。如果一个组件出现故障，其他组件可以接替。这包括拥有备份服务器、备用数据中心和“故障转移”机制，以便在发生中断时快速切换到备份系统。
　　自动化日常 IT 流程可以降低人为错误的风险，而人为错误是导致停机的常见原因。自动化系统还可以监控潜在问题，并在问题导致严重后果之前予以解决。
　　培训员工如何在发生停电时做出反应，可以让困难的情况恢复正常。这包括知道联系谁、采取什么步骤以及如何使用替代工作流程。
　　IT 中断会造成多严重的后果？
　　由于互联网基础设施的分布式和去中心化特性，全球整个互联网瘫痪的可能性极小。互联网拥有多条冗余路径和系统。如果某一部分发生故障，流量可以通过其他网络重新路由。
　　然而，发生比 CrowdStrike 中断更大、更广泛的中断的可能性确实存在。
　　可能原因的列表读起来就像灾难片的剧本。类似于1859 年卡灵顿事件的强烈太阳耀斑可能会对卫星、电网和作为互联网骨干的海底电缆造成大面积破坏。此类事件可能会导致跨越大陆并持续数月的互联网中断。
　　全球互联网严重依赖海底光缆网络。多条关键电缆同时受损（无论是自然灾害、地震、事故还是蓄意破坏）都可能导致国际互联网流量严重中断。
　　针对关键互联网基础设施（如根 DNS 服务器或主要互联网交换点）的复杂、协同的网络攻击也可能导致大规模中断。
　　虽然互联网彻底崩溃的可能性极小，但数字世界的互联性意味着任何大规模中断都将产生深远的影响，因为它会破坏我们所依赖的在线服务。
　　持续的适应和准备对于确保全球通信基础设施的弹性至关重要。

页: [1]

NewCET's Archiver

一个小更新导致全球数百万 IT 系统瘫痪——这是一个及时的警告