出品|搜狐科技
作者|常博硕
编辑|杨锦
近日,亚马逊云科技(AWS)正式推出了新一代自研AI芯片Trainium 3。作为亚马逊首款3nm制程的AI芯片,Trainium 3由台积电代工生产,提供2.52 PFLOPs FP8算力,内存容量较前代增加1.5倍、带宽提升1.7倍,搭载它的Trn3 UltraServer系统能效较前代提高40%。
据亚马逊AWS首席执行官马特·加曼(Matt Garman)表示,Trainium 3的计算能力较Trainium 2有了大幅提升。
挑战英伟达AI芯片的最强一击
近十年来,随着生成式人工智能和以Transformer架构为核心的大语言模型的爆发,算力需求也在不断增长。在这种背景下,芯片逐渐成为云服务商竞争的关键。
Trainium 3作为AWS首款采用3纳米工艺制造的AI芯片,它在性能密度、能效比和互联带宽上相比前代都实现了质的飞跃。
据AWS官方数据,搭载Trainium 3芯片的Trn3 UltraServer系统在训练和推理性能上都实现了显著提升。相比第二代产品,新系统速度提升超过4倍,内存容量增加4倍。
每颗Trainium 3芯片提供2.52千万亿次浮点运算(PFLOPs)的FP8算力,内存容量较上代增加1.5倍至144GB HBM3e,内存带宽提升1.7倍至4.9TB/s。单台完整配置的Trn3 UltraServer可容纳144颗芯片,总算力达362 PFLOPS,并提供高达20.7TB的HBM3e内存和706TB/s的聚合内存带宽。
在能效方面,Trn3 UltraServer的能效比前代产品提高40%,性能功耗比提升4倍。在Amazon Bedrock平台上,Trainium 3性能较Trainium 2提升了3倍,每兆瓦输出token数量增加超过5倍,且延迟水平相当。
对于亚马逊来说,显然他们希望进一步吸引寻求性价比的公司。公司宣称,Trainium芯片能以比英伟达市场领先的图形处理单元(GPU)更低廉和高效的方式为AI模型背后的密集计算提供动力。AWS的副总裁戴夫布朗(Dave Brown)也表示:“我们对Trainium实现正确的价格性能比的能力感到非常满意。”
细数一下,亚马逊的造芯之路其实已经长达十年。
2015年,亚马逊收购了以色列芯片设计公司Annapurna Labs。这次收购是亚马逊正式具备高端芯片自研能力的关键,Annapurna Labs 随后成为了AWS所有自研芯片的核心研发团队。
Annapurna 的首个重大贡献就是AWS Nitro系统。在传统的服务器架构中,虚拟化功能由CPU上的软件实现。而Nitro系统的核心理念是将这些功能“卸载”到专用的硬件卡上。Nitro系统实际上可以看作是一个通用的底座,无论是Intel或AMD的x86处理器,还是后来AWS自研的Graviton处理器都可以像乐高积木一样插在Nitro底座上运行。
在Nitro取得全面成功后,2018年AWS发布了基于Arm架构的Graviton处理器。通过剔除x86架构中许多云场景不常用的指令集包袱,Graviton1、2、3乃至最新的Graviton4,在Web服务、数据库等典型云工作负载中,都提供了比同代x86处理器更高的性价比。
也是2018年,亚马逊开始进军AI领域,AWS推出了首款AI芯片Inferentia。Inferentia1并不追求极致的单卡性能,而是专注于低延迟和低成本,特别适合处理Batch Size较小的实时请求。
Trainium 系列芯片是AWS在AI训练芯片上的重点。2020年,AWS正式进入AI训练领域发布Trainium 1,虽然在绝对性能上无法匹敌当时的Nvidia A100,但在性价比上提供了有力的竞争选项,特别是在NLP模型的微调上。
后来,随着生成式AI的爆发,2023年芯片进一步升级,Anthropic等核心客户也开始大规模采用Trainium2进行模型训练。
到2025年,Trainium3算是AWS造芯战略的集大成者,在制程上追平了业界最顶尖水平,也在系统架构上展现了与英伟达全面抗衡的野心。
Trainium3的核心计算单元是第四代NeuronCore(NeuronCore-v4)。与NVIDIA GPU中的Streaming Multiprocessor类似,每个NeuronCore内部采用异构执行单元设计,专门针对深度学习尤其是Transformer架构优化。由于无需支持图形渲染功能,其芯片资源也可以更集中地用于矩阵运算与模型训练。
新AI芯片的消息公布后,当天亚马逊股价逼近239美元刷新日高,日内涨幅扩大到将近2.2%,而盘初曾涨3.2%的英伟达股价进一步收窄涨幅,美股早盘尾声时刷新日低,几乎抹平所有涨幅。其竞争对手AMD的股价日内跌近1.7%。
亦敌亦友
亚马逊近日也预告了正在开发中的Trainium 4芯片。据了解,这款下一代产品将带来性能的重大跃升,并将支持英伟达的NVLink Fusion高速芯片互联技术。
这项技术能够实现不同类型芯片之间的高速连接,以及不同服务器之间的快速通信,目前已知英特尔、高通都是该技术的使用者。
通过引入NVLink Fusion,AWS得以构建规模更大、适用性更强的AI服务器,进一步提高互联互通能力,再次推高部署能力的上限,帮助客户更好地训练大模型。
在无法快速实现芯片替代的情况下,对于AWS来说,引入英伟达技术能够帮助那些依赖英伟达工作负载的企业更轻松地逐步迁移到Trainium基础设施中。
英伟达CEO黄仁勋则表示,英伟达和AWS将携手打造AI产业革命的计算架构,加速世界迈向智能化的道路。
尽管硬件性能强劲,但与英伟达相比,AWS芯片缺乏帮助客户快速部署的深度软件库。目前Anthropic是AWS芯片的主要客户, AWS今年早些时候表示,已将超过50万颗芯片串联起来帮助Anthropic训练最新模型,并计划在年底前为这家OpenAI的头号竞争对手提供100万颗芯片。
不过,据外媒报道Anthropic同时也在使用谷歌的TPU(张量处理单元),并在今年早些时候与谷歌达成协议,获得了价值数百亿美元的计算资源。
除Anthropic外,亚马逊并未公布其他如Anthropic这样规模的客户。众所周知,在半导体领域硬件只是入场券,软件生态才是护城河。英伟达之所以难以撼动,也主要归功于CUDA及基于其上的庞大软件库。
针对这一点,AWS也在尽力追平,承诺通过AWS Neuron SDK和原生PyTorch集成,让开发者无需更改任何模型代码即可进行训练和部署,试图以此缩小与英伟达的软件生态差距。