美国东部时间周一凌晨,全球云计算巨头亚马逊云服务(AWS)的核心区域突发重大故障,这场始于弗吉尼亚州北部 US-East-1 区域的技术事故,最终演变为持续超12小时的全球互联网瘫痪事件。占据全球三分之一云市场份额的AWS此次 "停摆",让数百万企业及数亿用户亲历了"现代互联网中枢失灵"的冲击。
(一)企业服务大面积停摆
(二)亚马逊内部运营瘫痪
红迪网多位匿名员工爆料,全美超 50 个亚马逊仓库的调度系统离线,Flex 司机无法接收配送订单,Anytime Pay 薪资提取功能瘫痪致 hourly员工无法支取当日工资。有仓库主管透露:"我们被迫用纸质表格记录货物信息,这是十年未见的场景。"
网络安全公司NymVPN首席数字官罗布・贾丁指出,故障排除网络攻击可能,更可能是"数据中心关键组件故障"。美国国家安全局前计算机科学家迈克・查普尔进一步解析:"问题出在DynamoDB的'地址簿 '——告知其他系统数据存储位置的记录失效,而非数据库本身受损。"
这一故障模式与2023年6月AWS Lambda服务中断有相似性:当时因前端队列扩展漏洞导致服务降级,而此次故障暴露了核心服务的DNS冗余设计缺陷。Parametrix Insurance报告显示,US-East-1区域中断24小时可造成34亿美元直接损失,此次12小时故障的经济影响初步估算超15亿美元。
(一)集中化依赖的代价
AWS、微软、谷歌占据全球70%的云市场份额,此次事件印证了"云服务商打喷嚏,全球互联网感冒"的现实。2024年7月CrowdStrike软件更新失误致全球航班停飞,6月谷歌云故障影响OpenAI,再加上此次AWS事故,半年内三次全球性技术瘫痪均指向同一症结:关键基础设施过度集中。
(二)多云战略成新共识
谷歌借此次机会加大Workspace服务推广,其博客文章直言 "依赖单一供应商等于裸奔"。UCloud CEO季昕华早前提及的 "多云战略" 再度引发关注——腾讯云2019年曾通过多区域流量调度,将光缆断裂故障的恢复时间压缩至150秒,这为行业提供了替代方案。
截至目前,AWS尚未公布具体赔偿方案,但已有劳埃德银行等客户宣布启动多云迁移计划。这场持续12小时的故障,或许将成为全球企业IT架构重构的转折点。