近日,华为创始人任正非在深圳接受《人民日报》专访时,谈到了芯片技术差距上的问题。
对于芯片技术,任正非明确表示“华为单芯片还是落后美国一代”,但紧接着话锋一转说:“我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。 ”
是的,这几年华为技术团队提出了“用数学补物理”、“非摩尔定律补摩尔定律”、“用系统补单点” 三大创新思想,成功打造出了“超节点+集群”系统算力解决方案。
而这个“超节点+集群”系统,就是华为的昇腾CloudMatrix 384超节点,这是华为全栈100%国产化自研的全球最大AI超节点,它的出现成功撕开了被英伟达垄断的缺口。
华为CloudMatrix 384实现弯道超车。
2025年4月,在安徽芜湖举行的华为云生态大会上,华为常务董事、云计算CEO张平安揭开了CloudMatrix 384的神秘面纱。
这个由384张昇腾算力卡组成的超节点集群,单集群算力高达300PFlops,较英伟达NVL72的180PFlops高出67%,内存带宽达到后者的2.1倍,互联带宽提升至2.8Tbps,断点恢复时间缩短至10秒级,多项指标创下全球商用AI算力集群的新纪录。
在单颗昇腾芯片性能约为英伟达Blackwell架构GPU三分之一的情况下,华为选择了截然不同的技术路径,通过超大规模集群设计实现系统级突破。
华为依托6812个400G光模块构建的超高速互联网络,使数据在384张卡间近乎无损流动,训练效率逼近单卡性能的90%,远高于传统架构60%-70%的水平。
据SemiAnalysis披露,华为云CM384基于384颗昇腾芯片构建,可提供高达300 PFLOPs的密集BF16算力,接近达到英伟达GB200 NVL72系统的两倍。
而这一技术,便是在美国持续技术封锁的背景下取得的突破,硅基流动基于该平台部署的DeepSeek-R1模型实现了单卡解码吞吐1920Tokens/s,与英伟达H100部署性能相当。
英伟达霸主地位将遭遇最强挑战。
华为的迅猛崛起已经引起英伟达高层的高度警觉,今年以来,英伟达CEO黄仁勋已数次提起华为,并将华为视作最大的竞争对手之一。
黄仁勋近日还明确表示:“从技术参数看,华为的CloudMatrix 384超节点,性能上甚至超越了英伟达,比英伟达的尖端技术更具优势,因此我们必须高度重视这家实力雄厚的公司,全力以赴应对挑战。”
黄仁勋的这番表态,被业界视为美国AI芯片巨头对中国竞争对手技术实力的首次公开认可。
全球算力市场格局有望被重构!
对于华为来说,CloudMatrix 384的野心远不止于技术对标,而是规划着中国科技产业参与全球规则制定的深层战略,正如华为在5G通信领域制定标准一样。
接下来华为将通过超节点架构倒逼行业放弃“单卡性能竞赛”,将竞争焦点转向集群效率、TCO(总拥有成本)和生态协同度。
这就意味着,过去紧盯制程工艺、单卡算力、显存容量的方向接下来要发生变化了,算力集群的有效利用率、断点恢复速度和生态协同度才是未来关注的方向,先进工艺真不重要了。
同时华为还要以集群优势吸引AI企业加入昇腾体系,形成硬件-软件-模型闭环,目前华为开发者规模超1200万,伙伴数量4.5万,云商店应用1.2万,正在打造可与CUDA抗衡的替代方案。
很显然,在华为等中国科技公司的努力下,接下来的算力世界大战,中国厂商将首次站到制定规则的位置上,随着CloudMatrix 384的上线计划推进,全球AI产业垄断将彻底被打破!
下一篇:欧空局首发太阳南极高清图像