根媒体报道,AMD与Intel已正式发布ACE(AI Compute Extensions,AI计算扩展)完整技术规范v1.15版本。这被视为x86架构历史上针对AI计算最重大的一次革新。该白皮书由八位AMD工程师和三位Intel工程师共同撰写,标志着指令集合约已成为PyTorch、TensorFlow、NumPy以及x86堆栈中所有高性能计算(HPC)库维护者的稳定目标。
尽管目前尚未宣布任何兼容的硅片产品,且硬件预计要到2028年左右才会问世,但对于在x86平台上构建AI推理管道的开发者而言,标准已经冻结,软件窗口已经打开,现在正是开始规划的最佳时机。
AMD主导话语权,终结Intel单一守门人模式
联合署名本身便是技术读者首先应关注的重点。数十年来,Intel一直是新x86指令集扩展的守门人——由该公司率先提议、定义并推出每一项扩展,而AMD则随后跟进并进行适配。然而,这一模式随着ACE的出现而终结。
在这份白皮书列出的十一位作者中,有八位是AMD员工;三位Intel贡献者是在规范制定的后期阶段加入的。AMD和Intel选择不将Intel现有的高级矩阵扩展(AMX)标准化,Intel自2023年1月Sapphire Rapids以来一直在其至强服务器处理器中部署AMX。ACE是一个独立的、新的扩展,不与AMX向后兼容。选择构建全新架构而非采用Intel现有方案,表明AMD对x86发展方向的影响力已达到前所未有的高度。
引入二维瓦片寄存器,计算密度提升16倍
ACE解决的核心问题是架构层面的。传统的SIMD(单指令多数据)扩展——包括Intel和AMD的AVX10——本质上是一维的,操作的是沿单一轴并行处理的向量。而矩阵乘法作为每个神经网络和大语言模型的数学基础,本质上是二维的。将这种二维问题强行塞入一维SIMD指令集,技术上是一种变通手段,因为AVX的设计初衷并非面向二维矩阵运算。
ACE的解决方案是为x86架构添加八个新的二维瓦片寄存器(tile registers),每个寄存器存储一个16×16的32位值矩阵(每个瓦片宽512位)。ACE指令使用外积算法在这些瓦片上运行:与SIMD一次处理一行不同,硬件同时计算每个行-列交叉点的贡献,在一次传递中以8位精度消耗两个16×4的输入矩阵。据称,这带来了比使用相同数量输入向量的等效AVX10乘加操作高出16倍的计算密度提升。
需要强调的是,这16倍衡量的是计算密度——即每条指令完成的数学工作量,而非端到端的应用加速比。实际性能提升将取决于芯片面积分配、内存带宽以及编译器优化程度。但在指令开销降低方面优势明显:每条ACE操作执行的工作远多于它所替代的AVX10循环,这意味着CPU花费在获取和解码指令上的时间更少,并能更好地利用可用的内存带宽。
在数据格式支持方面,ACE原生支持INT8、OCP FP8、OCP MXFP8、OCP MXINT8和BF16,其中包括专门为大规模大语言模型推理效率所需的精度权衡而设计的Open Compute Project MX块缩放格式。ACE v1总共描述了十一种数据格式。
为何弃用Intel AMX?覆盖全场景与所有权博弈
大多数具备技术背景的读者会问,为什么AMD和Intel不直接标准化Intel现有的AMX技术。财团选择了不同的道路,其原因揭示了x86未来的重要信息。
首先,Intel AMX仅存在于至强服务器CPU中,从未为客户端市场设计,也不打算用于笔记本电脑或嵌入式设备。相比之下,ACE明确旨在覆盖整个x86范围,从数据中心服务器到Ryzen移动SoC。规范指出,ACE硬件可以按核实现,也可以跨核心集群共享,允许供应商根据目标市场细分调整芯片面积投资,而AMX并不提供这种灵活性。
其次涉及所有权问题。AMX是Intel的专有设计,将其标准化将在AMD正极力彰显自身影响力的关键时刻,赋予Intel对x86 AI加速路径的架构控制权。EAG选择开发一种全新的、联合开发的扩展——由AMD担任主要作者角色——确立了没有任何一家公司拥有该标准的事实。开发人员编写ACE优化代码时,写的是x86代码,而非Intel代码。
TIRIAS Research的高级分析师Jim McGregor指出:“CPU永远不可能比GPU/AI加速器更高效,但它允许你将一些AI工作负载卸载到CPU上,或者在没有GPU或AI加速器的应用程序(如嵌入式/边缘应用)中使用CPU进行AI工作负载处理。”ACE并不是要让CPU取代Nvidia的张量核心,而是在全球安装基数最大的x86平台上建立一个一致、无碎片化的AI计算基线。
告别碎片化灾难,软件生态先行
x86指令集扩展的历史充满了碎片化的灾难。Intel于2013年提出AVX-512,但AMD多年后才采用且子集不同,Intel甚至在混合架构中因能效核缺乏支持而禁用该指令,导致开发者普遍回避。ACE的联合署名模式正是为了防止这种结果。通过联合标准化该扩展,EAG创造了一个开发者可以放心投资的目标。
对于务实思考ACE适用场景的工作负载架构师而言,McGregor的观点指向了三类应用程序:边缘推理、嵌入式系统以及对隐私敏感的端侧处理。汽车系统、工业机器人、医疗设备和卫星硬件中的嵌入式计算往往无法容纳独立GPU。对于延迟敏感任务的小型模型推理,受益于驻留在CPU上的执行,避免了数据在分离加速器之间传输的开销。
时间表:软件窗口已开,硬件静待2028
截至规范发布,尚未宣布任何支持ACE硬件的x86处理器。AMD当前的路线图引用了Zen 7微架构的“新矩阵引擎”和“AI数据格式扩展”,预计大约在2028年到来,分析人士将其解读为可能的ACE实现。无论是目前正在EPYC Venice服务器CPU中量产的Zen 6,还是Intel即将到来的Nova Lake,均未提及ACE支持。
现在可用的是指令集合约本身。软件启用工作已经开始:深度学习和高性能计算库的集成正在进行中,包括低精度GEMM内核和LLM特定原语,以及Python库(如NumPy和SciPy)和主要机器学习框架PyTorch和TensorFlow的集成。这一工程序列是有意的,给予编译器团队、框架维护者和库作者大约两年的时间在产品上市前达到成熟度,以避免重蹈AVX-512时代软件就绪状态滞后于硬件的覆辙。
常见问题解答
ACE会取代Intel现有的AMX扩展吗?
随着时间的推移,几乎肯定会。ACE是一个新的、联合标准化的扩展,不与Intel的高级矩阵扩展(AMX)向后兼容。AMD从未实施过AMX,EAG决定将ACE作为全新标准开发而非扩展AMX,这意味着ACE旨在成为x86矩阵加速的长期标准,用一个统一的、联合拥有的标准来取代它。
ACE如何在没有GPU的情况下在CPU上运行矩阵乘法?
ACE为x86架构添加了八个二维瓦片寄存器,每个寄存器存储一个值的16×16矩阵。使用外积算法,ACE指令在一次硬件传递中计算矩阵乘法中每个行-列交叉点的贡献,而不是像传统SIMD指令那样逐行迭代。这带来了比等效AVX10乘加操作高16倍的计算密度优势,使x86 CPU能够更高效地运行AI推理,特别是小型模型、低延迟任务以及没有独立GPU的嵌入式系统。
支持ACE的CPU何时出货?
尚未宣布任何具有ACE硬件的x86处理器。基于AMD公开声明的路线图,其中引用了Zen 7微架构的“新矩阵引擎”,最早的可能到达时间约为2028年。Intel对应的时间表尚未披露。ACE规范现已可用,与PyTorch、TensorFlow、NumPy和HPC库的软件集成已在进行中,该标准的设计使得软件生态系统可以在硬件上市前成熟。
ACE是否使x86 CPU在与Nvidia GPU的AI工作负载竞争中具有竞争力?
不会,规范也没有做出此类声称。对于最具挑战性的AI工作负载,CPU永远无法匹配GPU或专用AI加速器的效率。ACE的目的不同,它为整个x86安装基础建立了一致的高密度矩阵计算能力,针对那些CPU已经运行计算但效率低下的AI工作负载类别——边缘推理、对隐私敏感的端侧处理以及没有GPU选项的嵌入式系统。
【星途科讯 图文丨略略 首发于ZAKER科技,转载请注明出处】