在人工智能飞速发展的当下,算力已然成为核心竞争力的关键要素。由显卡规模撑起的算力水平,是决定大模型性能的最重要指标之一。一般认为,1 万枚英伟达 A100 芯片,是做好 AI 大模型的算力门槛。
2024 年,我国智算中心建设驶入快车道,最明显的感受就是万卡集群项目加速落地。万卡集群,是指由一万张及以上 GPU、TPU 等专用 AI 加速芯片组成的高性能计算系统,它深度融合高性能 GPU 计算、高速网络通信、大容量并行文件存储以及智能计算平台等前沿技术,将底层基础设施整合成一台超级强大的「算力巨兽」。借助这样的集群,千亿乃至万亿参数规模的大模型训练得以高效完成,大幅缩短模型迭代周期,助力 AI 技术快速进化。
然而,随着 AGI 的概念持续火热,行业对算力的渴求愈发强烈,「万卡集群」逐渐难以满足爆发式增长的需求,算力领域的「军备竞赛」愈演愈烈。如今,十万卡集群已成为全球顶尖大模型企业的「兵家必争之地」,xAI、Meta、OpenAI 等国际巨头纷纷布局,国内企业也不甘示弱,积极投身这场算力角逐。
十万卡集群挑战巨大
在全球范围内,OpenAI、微软、xAI 和 Meta 等头部科技公司竞相构建超 10 万卡规模的 GPU 集群。这一宏大计划背后,是惊人的资金投入,仅服务器成本就超过 40 亿美元。此外,数据中心的空间限制、电力供应不足等问题,也如同拦路虎,阻碍着项目推进。
而在国内,建一个万卡集群,单是 GPU 的采购成本就高达几十亿,因此国内能够部署万卡规模集群的,原本就只有阿里、百度等寥寥几家大厂。而想要部署十万卡集群,其「烧钱」程度可想而知。
除了资金成本,十万卡集群建设还面临着诸多技术难题。
首先是电力与散热的极限考验。十万卡 H100 集群仅关键 IT 设备就需约 150MW 电力,远超单个数据中心建筑的承载能力,需通过园区多建筑分布式部署实现电力分配,同时还要应对电压波动与稳定性难题。而散热系统更需匹配巨量热负荷—高密度 GPU 运行时产生的热量若无法及时疏导,将直接导致设备宕机,高效散热方案的能耗与维护成本也需同步优化。GPU 是一种很敏感的硬件,连一天之内气温的波动,都会影响到 GPU 的故障率,而且规模越大,出故障的概率就越高。Meta 训练 llama3 的时候,用了 1.6 万张 GPU 卡的集群,平均每 3 小时就会出一次故障。
此外,区别于传统 CPU 集群的串行特点,大模型训练过程需要全部显卡同时参与并行计算,对网络传输能力也提出了更大的挑战。若采用胖树拓扑实现全 GPU 高带宽互联,四层交换的硬件成本将呈指数级增长,因此通常采用「计算岛」模式:岛内以高带宽保障通信效率,岛间则降低带宽以控制成本。但这要求在张量并行、数据并行等不同训练模式下,精准平衡通信任务分配,避免因拓扑设计缺陷导致带宽瓶颈。尤其当模型规模突破万亿参数时,前端网络的通信量会随稀疏技术应用急剧增加,延迟与带宽的优化需精细化权衡。
最后,相比于美国同行,中国大模型企业还面临一重特殊的困难。由于总所周知的原因,国内企业无法像马斯克那样全部采用英伟达方案,而是需要使用包括国产 GPU 在内的异构芯片。这也意味着,即使同样十万张显卡,国内企业在算力规模上也很难同美国企业匹敌。
算力是大模型发展的核心,但算力的增长已从线性变为平面。构建十万卡集群不仅是算力的增长,还涉及技术和运营挑战,管理 10 万卡集群与万卡集群有本质区别。
国产「十万卡」集群加速落地
「芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与最先进水平是相当的。」华为总裁任正非的这番表态,不仅增强了社会各界对中国 AI 发展的信心,也凸显了集群计算在 AI 研发应用中的关键地位。从曾经的「万卡集群」入场券,到如今「十万卡集群」新目标,国内智算中心建设不断迈向新高度。
去年 9 月,一项瞄准十万卡超大规模算力的单体集群建设计划——「算海计划」二期宣布落地启动。「算海计划」取「海纳百川、聚沙成塔」之义,剑指筹建面向模型训练的大规模单体集群。据介绍,「算海计划」二期由北京并行科技股份有限公司(以下简称并行科技)发起,合作伙伴北京智谱华章科技有限公司、北京面壁智能科技有限责任公司、中国移动通信集团湖北有限公司武汉分公司、中国联合网络通信有限公司武汉市分公司、中国电信股份有限公司武汉分公司、武汉大学信息中心、内蒙古新东吉泰科技公司参与启动仪式。在内蒙古和林格尔,占地超 50 亩的「算海计划」一期建设项目已于今年 5 月上线运营,该项目规划有 4000 个 20kW 高功率智算机柜,最大可支持建设 6 万卡规模的单体智算集群。在距离该项目不超过 100 米处,「算海计划」二期项目已规划上马,二期将依托单一大集群进行统一管理和调度,可容纳高达 10 万卡的强大算力资源。
2024 年 7 月底,甘肃亿算智能科技有限公司已在庆阳投资 3.07 亿元建成了中国首个国产万卡推理集群。而在今年 6 月,甘肃亿算及其生态合作伙伴计划出资 55 亿元,建设「国产十万卡算力集群」,提供不低于 2.5 万 P 算力服务,预计于 2027 年 12 月 30 日前建成并投入使用。本次拟落地庆阳的十万卡算力集群,计划全部采用国产芯片与自主架构,深度融合庆阳能源优势与长三角技术势能,构建「西部算力+东部智慧」全国联动,打造开放算力平台,为 AI 大模型训练与科学计算筑牢「中国底座」。
字节跳动在智算领域的布局同样雄心勃勃。2024 年,其资本开支达 800 亿人民币,接近 BAT 三家总和(约 1000 亿人民币)。预计 2025 年,这一数字将翻倍至 1600 亿人民币,其中 900 亿用于 AI 算力采购,700 亿投向数据中心基础设施建设及配套硬件。据第三方机构测算,以 400T (FP16) AI 算力卡为标准,字节跳动当前训练算力需求约为 26.73 万张卡,文本推理算力需求约为 33.67 万张卡,未来推理算力需求有望突破 230 万张卡。
国产 AI 芯片公司,得到利好
在这股热潮中,有能力建设十万卡集群的国产 AI 芯片公司也将获得利好。
在 6 月 20 日举行的华为开发者大会 2025(HDC 2025)上,华为常务董事、华为云计算 CEO 张平安宣布,基于 CloudMatrix384 超节点的新一代昇腾 AI 云服务全面上线,为大模型应用提供澎湃算力。 通过 432 节点级联,可构建 16 万卡超算集群,满足十万亿参数级大模型训练需求,突破传统架构扩展极限。
华为云新一代昇腾 AI 云服务基于 CloudMatrix384 超节点,首创将 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 通过全新高速网络 MatrixLink 全对等互联,形成一台超级「AI 服务器」,单卡推理吞吐量跃升到 2300 Tokens/s。
超节点架构能更好地支持混合专家 MoE 大模型的推理,可以实现「一卡一专家」,一个超节点可以支持 384 个专家并行推理,极大提升效率。同时,超节点还可以支持「一卡一算力任务」,灵活分配资源,提升任务并行处理,减少等待,将算力有效使用率(MFU)提升 50% 以上。同时,超节点还可以支持训推算力一体部署,如「日推夜训」,训推算力可灵活分配,帮助客户资源使用最优。
此外,百度的百舸 4.0 通过 HPN 高性能网络、自动化混训切分策略、自研集合通信库等一系列产品技术创新,已经能够实现十万卡集群的高效管理。
腾讯去年也宣布了自研星脉高性能计算网络全面升级,星脉网络 2.0 搭载全自研的网络设备与 AI 算力网卡,能够支持超 10 万卡大规模组网,网络通信效率比上一代提升 60%,让大模型训练效率提升 20%。
阿里方面同样释出消息,阿里云可实现芯片、服务器、数据中心之间的高效协同,支持 10 万卡量级的集群可扩展规模,已服务全国一半的人工智能大模型企业。
算力互联网和东数西算打通市场堵点
当前,我国智能算力供不应求的问题较为突出,大模型对算力的需求增速远超单颗 AI 芯片性能的提升步伐。相关报告显示,2023 年,中国智能算力需求达 123.6EFLOPS,而供给仅为 57.9EFLOPS,供需缺口一目了然。利用集群互联弥补单卡性能短板,或是现阶段缓解 AI 算力荒最值得探索与实践的有效途径。
「十万卡集群」建成后如何充分挖掘其应用价值,使其在人工智能训练、大数据分析等适配场景发挥最大作用,杜绝资源空置与浪费现象的问题亟待解决。智算中心的建设只是一个开端,更重要的是后续的有效运用。也就是说,如何打通市场堵点才是关键。在此背景下,为解决相关市场堵点,算力互联网和东数西算被提出并受到广泛关注。
算力互联网,并非一张全新的网络,而是基于现有互联网,将各地分散的算力资源连接起来,借助标准化的算力标识与协议接口,跨域实现资源互联网络,达成全网异构算力的智能感知、实时发现与随需获取。简单来说,它就是一张服务于算力流动的网络,旨在进一步推动算力的互联互通,盘活现有算力资源,提升使用效率,降低使用成本,为用户带来更优质的体验。5 月 17 日,中国信通院会同三大运营商联合启动「算力互联网试验网」建设,并发布《算力互联网体系架构 1.0》。这一举措旨在面向通算、智算、超算,以及云、边、端等公共算力资源,实现三家运营商自有算力和全国分散社会算力的互联,让用户能便捷地「找、调、用」算力。未来,用户有望像按「千瓦时」用电一样,按「卡时」灵活购买使用算力资源,实现用多少买多少的便捷服务。
而东数西算工程,则是通过构建数据中心、云计算、大数据一体化的新型算力网络体系,把东部的算力需求有序引导至西部,优化数据中心建设布局,促进东西部协同联动。2022 年 2 月,国家在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏 8 地启动建设国家算力枢纽节点,并规划 10 个国家数据中心集群,标志着东数西算工程正式全面启动。其核心目的是让西部的算力资源更充分地支撑东部数据的运算,为数字化发展赋能。一方面,能缓解东部能源紧张问题;另一方面,为西部开辟新的发展道路。
通过算力互联网和东数西算的协同推进,有望打通市场堵点,优化算力资源配置,推动我国 AI 产业的持续健康发展。一方面,算力互联网能实现算力资源的跨区域、跨行业流通,提升资源利用效率;另一方面,东数西算可利用西部的能源和土地资源优势,降低算力成本,同时缓解东部的数据中心建设压力。二者相辅相成,共同为我国智能算力供需失衡问题提供解决方案。
如果说 2024 年是我国万卡集群的元年,2025 年,十万卡集群也要来了。
转自:半导体产业纵横