AI热潮威胁数据中心多年来的韧性建设成果
创始人
2026-05-19 08:12:29
0

据Uptime Institute最新年度研究显示,数据中心宕机事件已连续第五年下降,这一以韧性为根基的行业仍在坚守其核心原则。

Uptime研究部门本周发布的《2026年数据中心宕机分析报告》,综合运用该机构自身调查、媒体报道、企业声明及其他来源,对全行业停机情况进行了系统梳理。

然而,近期AI驱动的战略转型似乎将性能置于韧性之上,这引发了外界对整体宕机趋势能否持续向好的疑问。

尽管韧性建设已取得显著进展,宕机事件仍是数据中心行业难以回避的现实。近期引发广泛关注的事故包括AWS北弗吉尼亚设施发生的宕机事件,据报道起因是冷却系统故障。

Uptime Institute Intelligence研究执行总监安迪·劳伦斯在接受媒体采访时表示,从多年维度来看,报告的发现具有一定的内在逻辑。

"今年的结果没有呈现出什么戏剧性或意外的情况,宕机率已连续第五年出现小幅改善,"他说,"但与此同时,改善的速度正在放缓,并且有迹象表明一些可能引发更多宕机的新因素正在逐渐显现。这涵盖电网稳定性下降、网络威胁增加,以及愈发明显的电缆切断事件。"

外部因素推动宕机事件增加

最新Uptime数据以海底电缆被切断和网络攻击为典型案例,指出IT服务中断越来越多地源于外部基础设施故障,而非设施内部的问题。尽管全球范围内反数据中心情绪持续升温,但Uptime的劳伦斯表示,针对数据中心的蓄意破坏行为目前仍属罕见。

报告的其他重要发现还包括:

宕机成本持续攀升:连续第二年,五分之一的受访者表示损失超过100万美元。据Uptime统计,十分之一的受影响组织表示其最近一次宕机造成了严重或极其严重的影响。

电力故障仍是宕机的首要原因,但风险正在演变:Uptime指出,"UPS系统、转换开关和发电机的故障仍占主导地位;然而,电网约束加剧和高密度工作负载正在引入新的压力点。"

针对AI数据中心,劳伦斯解释说,AI优化设施的规模和设计有可能在未来推高宕机率。

"AI显然在推高机架密度,加大冷却系统的压力,"他说,"同时也在缩短冷却系统的持续运行时间。因此,在我们逐渐适应这些新技术之前,我们可能正在进入一个这一趋势趋于平稳、甚至略有上扬的阶段。"

AI数据中心与未来韧性挑战

Uptime宕机报告指出,由于许多AI站点仍相对较新,本次报告尚未对其进行直接涵盖,但相关内容将纳入未来研究。报告重点提出了几个亟待解答的关键问题:

考虑到大规模基础设施的高昂成本,大型运营商会为其训练站点选择怎样的韧性等级?这些站点发生故障的频率及原因目前尚未得到充分研究。AI站点可能因其IT工作负载的规模庞大和能耗密集而面临更高的宕机风险。

超大规模或超大数量的数据中心会对区域电网造成哪些系统性风险,运营商又如何加以应对?尽管相关缓解措施正在推进,但近年来系统性故障的发生概率似乎有所上升,且这一趋势可能持续。

大型现场持续供电设施的韧性表现将如何?在压力或用电高峰期间,需求响应和电力交易的使用日益增多,这可能带来额外风险。

Dell'Oro Group研究总监亚历克斯·科迪维尔认同AI基础设施的扩张规模正在迫使运营商重新审视韧性策略,但他表示这一过程早在云计算时代便已开始。

"规模正在倒逼冗余设计的重新思考,"科迪维尔表示,"多年来我们已经看到,随着规模扩大,运营商开始重新审视自身的韧性策略。超大规模运营商探索放弃UPS的设计方案已有将近十年——而UPS可以说是数据中心电力韧性的象征。"

他补充说,AI设施所采用的具体技术,从液冷到高压配电,也可能因其固有局限性以及技术相对较新这一引入风险的因素,对韧性产生影响。

"接下来是直流架构在电力系统中的更广泛应用,这将带来设备组合的重大转变,并引入一批仅在过去一两年内才进入市场的新型设备。"

表后电源引发的宕机风险

Uptime还将现场自发电规模的快速增长——主要由AI需求驱动——列为潜在韧性风险。这一判断乍看似乎有违直觉,毕竟自发电理应带来更强的能源自主性。

"现场电站可能会引入一类迄今为止在数据中心从未存在过的全新问题,"劳伦斯说,"一旦开始使用燃气轮机、大量电池或燃料电池……它们各自都有其特有的问题。"

分析机构Omdia企业基础设施高级研究总监弗拉德·加拉博夫表示,现场发电基础设施必须得到有效部署,才能应对AI固有的部分韧性风险。

"我能理解拥有自有电源为何被视为一种韧性保障,但关键在于要围绕燃气发电机组或燃气轮机对整个系统进行合理设计,"他说。

加拉博夫解释说,要使采用表后电源的数据中心在设计上具备韧性,需要充分考虑AI工作负载峰谷波动显著这一特性。若缺乏相应应对措施,发电机可能因AI负载的不可预测性而受损。

"需要配置一组电容器组,用于吸收GPU在稳态运行期间持续发生的快速瞬态波动,"他说。

Uptime确认将于近期发布更多针对AI数据中心韧性的专项研究。相关报告的执行摘要及网络研讨会内容已在该公司官网上线。

Q&A

Q1:Uptime Institute的数据中心宕机报告有哪些主要发现?

A:报告显示数据中心宕机事件已连续第五年下降,但改善势头有所放缓。主要发现包括:五分之一的受访者表示宕机成本超过100万美元;电力故障仍是首要原因,但电网约束加剧和高密度工作负载带来新压力;外部因素如海底电缆被切断和网络攻击造成的影响日益突出。此外,AI数据中心的快速扩张被视为未来宕机风险上升的潜在诱因。

Q2:AI数据中心为什么会对整体韧性构成威胁?

A:AI数据中心正在推高机架密度,加大冷却系统负荷,并压缩冷却系统的持续运行时间。液冷、高压配电及直流架构等新技术的引入,因其技术相对较新而带来额外风险。此外,AI工作负载波动显著,对现场供电系统形成不规则冲击,若缺乏电容器等缓冲装置,发电设备可能因此受损。

Q3:数据中心现场自发电如何影响运营韧性?

A:现场自发电虽然提升了能源自主性,但也引入了新的风险。燃气轮机、电池和燃料电池等设备各有其固有问题,设计不当可能反而降低可靠性。AI工作负载的峰谷特性会产生快速瞬态波动,需要配置专用电容器组加以吸收,否则可能对发电设备造成损害。因此,整个供电系统需要围绕发电设备进行系统性设计,而非简单部署了事。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...