“任何可能出错的事情最终都会出错,而且是在最糟糕的时候”。
——墨菲定律
2024年7月19日发生的CrowdStrike导致Windows系统蓝屏事件已被很多新闻报道和上百个备忘录所覆盖。简而言之:网络安全供应商CrowdStrike对其EDR产品发布了一个微小但有缺陷的配置更新,导致850万套微软Windows系统崩溃。这次故障使全球的航空公司、医院、银行、电视广播公司和其他企业陷入瘫痪,数百万旅客、病人和消费者受到影响,更不用说数以万计的IT专业人员了,他们不得不利用周末时间对每台受影响的计算机手动应用修复程序以使其恢复正常。
我们这里不是为了批评CrowdStrike,也不是要对导致这次惨败的错误进行详细的取证分析。这起事件是任何技术供应商都可能遭遇的人为错误和技术故障的后果,在未来数月或数年内还会经常困扰其他技术供应商和企业。相反,我们希望从这次故障中汲取一些经验教训,以帮助您的企业更好地抵御此类事件,并在防御措施失败时更好地做好恢复准备,因为防御措施最终不可避免地都会失败。
“不可避免”这个词是这里的关键一课:认识到尽管我们的同事、合作伙伴、供应商、政府、监管机构和打击犯罪机构尽了最大努力,但此类事件仍会发生。网络犯罪分子每天都会发布超过25万个新的恶意软件实例。善意的员工也会犯错误。软件漏洞在未被发现的情况下潜入世界。硬件组件磨损和故障。大自然给我们带来的飓风、野火、暴风雪和洪水等。迟早会发生故障,就像潮汐一样不可避免。
我们队伍中的风险管理专业人员直观地了解这一现实。他们是最近从监管机构、网络安全标准制定者和保险行业三个不同方向出现的一些并行发展的主要推动者。思考一下:
这些机构历来都非常重视网络安全防御,如终端保护、强身份验证和安全意识培训。但在过去的一两年里,它们更加强调基于备份、灾难恢复和事件响应计划等支柱的恢复。这反映了世界上更广泛的认识,即真正的网络弹性需要两者兼备。
这对安克诺斯来说并不是新闻;我们是从另一个方向提出这一概念的,20年前,我们作为备份供应商起步,8年前推出了与备份集成的网络安全。长期以来,我们一直认为,监管机构、标准机构和保险公司正在推动的防御与恢复相结合,对于保持企业的正常运行时间和数据完整性至关重要。
企业应如何应对CrowdStrike事件
因此,如果您是网络安全、IT运营或风险管理负责人,正在为升级恢复基础设施进行业务论证(例如,首次投资云灾难恢复服务,或正式制定事件响应计划),不妨理解下这句话:“建立更好的网络恢复能力不仅能提高我们避免类似CrowdStrike故障这样的痛苦事件的机会,还可以改善我们的合规状况,使我们更好地与网络安全框架中列出的行业最佳实践保持一致,并提高我们获得具有价格竞争力的网络保险的能力。”
这就是从事件中得到的总体结论,尽管我们尽了最大努力,但事情偶尔还是会完全脱离轨道。作为一家技术供应商,就如何应对 CrowdStrike停机事件我们提供了一些战术建议: