我们所知道的世界越来越依赖于数字连接,而大多数情况下,数字连接都在后台悄无声息地运行。那么,一次软件更新是如何导致半数互联网瘫痪的呢?
7 月 19 日发生的全球 IT 中断事件,再次提醒我们,面对技术故障,我们是多么脆弱。此次中断是由网络安全公司CrowdStrike提供的一次错误软件更新引发的,对全球的航空公司、媒体、银行和零售商造成了灾难性的影响,尤其是使用 Microsoft Windows 操作系统的企业。
这一事件被描述为“历史上最大的 IT 中断”,它提醒我们,我们的数字基础设施是由庞大的 IT 互连网络支撑的,一旦出现问题,可能会产生深远的后果。
最初是机场延误,后来演变成大范围航班取消。航空系统的中断不仅扰乱了航班时刻表,还影响了依赖航空货运的全球供应链,这体现了现代 IT 生态系统的多面性。与此同时,许多电视台和广播电台的广播中断,超市和银行的运营陷入停滞。
初步分析表明,混乱源于 CrowdStrike 的 Falcon Sensor 安全软件的一次软件更新,该更新应用于 Microsoft Windows 操作系统。使用 CrowdStrike 的公司员工在尝试登录时遇到了“蓝屏死机” (屏幕上显示系统崩溃的错误消息)。
此次中断不仅暴露了支撑数字社会和经济的隐藏依赖关系网,还凸显了这些依赖关系的地缘政治层面。与微软和 CrowdStrike 关系密切的国家首当其冲,但中国等 IT 基础设施相对安全可靠、可控性强的国家的企业似乎受到的影响较小。
近年来,随着地缘政治紧张局势加剧,中国及越来越多的国家积极发展自身的网络安全措施和数字基础设施,这或许可减轻此次事件的影响。
中国专注于使用本土技术,减少对外国技术的依赖,这也可能是其系统受到的影响较小的原因之一。此次事件提醒我们,技术依赖性可能会转化为地缘政治脆弱性,国家当局越来越需要考虑其 IT 联盟的经济影响,而不仅仅是经济影响,还有战略和地缘政治影响。
复苏与影响
受影响行业如何应对这场危机,既反映了其自身安全和灾难恢复策略的优势,也反映了其弱点。主要问题已经确定,据报道已得到纠正。未来缓慢的恢复过程将表明,在我们复杂、深度互联的数字生态系统中恢复服务连续性将面临重大挑战。
尤其令人惊讶的是,尽管过去有过许多教训,例如2018 年影响了英国银行数百万客户的 TSB IT 迁移灾难,但银行并没有采用分阶段的软件推出方式。
这一步骤是 IT 管理中一项基本但关键的策略,但这一步骤的缺失暴露了许多人认为十分强大的系统的脆弱性。这也引发了人们对 Windows 操作系统以及 CrowdStrike 旨在保护它们的网络安全措施的弹性的严重质疑。
此外,此次事件凸显了依赖单一技术来源的战略风险。此次全球性中断表明,建立多元化技术联盟对于加强国家安全和经济稳定的重要性,同时也引发了人们对敌对国家可能利用此类漏洞的担忧。此次事件将为国际网络安全合作和政策干预增添新的紧迫性。
随着服务开始稳定并恢复,这次中断应该成为 IT 专业人员、企业领导者和政策制定者的警钟。迫切需要重新评估甚至彻底改革现有的网络安全战略和 IT 管理实践,这一点显而易见。提高系统弹性以抵御大规模中断必须是当务之急。
此次全球IT中断事件及时提醒了我们,也为我们在业务、基础设施和政策层面讨论数字弹性和技术治理的未来提供了一个关键时刻。
那么人工智能呢?
我们尚未知道答案的另一个问题是:如果一个软件错误就能导致世界各地的航空公司、银行、零售商、媒体机构等陷入瘫痪,那么我们的系统是否已经准备好应对人工智能?
也许我们需要在改进软件可靠性和方法论方面投入更多,而不是仓促推出聊天机器人。不受监管的人工智能行业将导致灾难,尤其是在地缘政治紧张局势日益加剧的世界。
虽然拥抱人工智能或区块链等新兴技术至关重要,但我们也必须掌握好基础知识。网络安全运营商需要确保基本的 IT 管理和维护实践强大而可靠,并且能够处理从网络安全攻击到简单的软件更新等任何问题。
此次事件的教训无疑将影响未来IT基础设施发展和危机管理的战略。