2nm芯片困境_科技动态

2nm芯片困境

创始人

2026-06-03 01:11:13

0次

公众号记得⭐️，第一时间看推送不会错过。

在 2 纳米及以下工艺水平，摩尔定律意味着更多，但更多也意味着更少。

理论上，在光刻胶大小的芯片上集成的晶体管越多，芯片处理数据以及在存储器和芯片之间来回传输数据的速度就越快。但理论与现实正在出现偏差。

从历史上看，实现这一目标的最佳方法是缩小晶体管、导线和存储单元的尺寸。但在 2 纳米及以下制程工艺下，这种方法面临严峻挑战。导线非常细，导致 RC 延迟成为一个重大难题。作为缓存主要手段的 SRAM 尺寸缩小，在数字逻辑电路的缩小方面远远落后。这反过来又限制了单个光罩大小的芯片上可容纳的存储容量。此外，由于工艺偏差，在晶圆厂中实现相同的良率也变得更加困难，因为工艺偏差可能出现在数百甚至数千个插入点以及制造过程中使用的数十种工具上。

任何制造工艺都存在一定程度的偏差，但在2纳米制程中，偏差的程度及其成因都在增加。由于金属层和衬底越来越薄，容易发生翘曲，导致凸点无法完全连接；此外，为确保芯片可靠性而需要的数十道工序也可能削弱或损坏脆弱的互连结构或材料。芯片制造设备本身存在偏差，原材料和晶圆也同样如此。其结果是，虽然芯片上的晶体管和互连数量更多，但缺陷率也更高。成本上升，良率下降。

Synopsys工程副总裁 Abhijeet Chakraborty 表示：“人们期望尺寸缩小后，器件性能会更快、功耗更低、晶体管密度更高。但挑战在于能否实现这些目标。能否实现性能提升 10% 到 15%，功耗降低 20% 到 30%？对于许多注重每瓦性能和晶体管密度的应用来说，更低的功耗极具吸引力。但能否做到这一点呢？这其中蕴含着诸多挑战和考量。实际应用中，良率和可制造性都面临着诸多挑战。”

制造工艺是一个不断完善的过程。随着时间的推移，工艺不断改进，使得代工厂能够放宽那些为每项前沿工艺预留裕量的严格设计规则，也使得EDA和设备供应商能够针对每项工艺制定相应的规则和例外情况。最初，仅仅是让这些先进节点设计能够正常运行本身就是一项工程壮举，而早期版本通常是针对最坏情况设计的，其中包含冗余晶体管、互连线以及足够的内置自测试功能，以便在必要时重新路由数据和处理过程。

但这种利润空间会占用宝贵的面积资源，限制性能和动力方面的投资回报。

“在2nm和18A工艺中，裕量已成为最受诟病的资源之一，” proteanTecs首席技术官Evelyn Landman表示。“裕量必须足以应对工艺偏差、热效应和环境影响、工作负载压力、潜在缺陷以及老化等问题。将所有这些因素汇总到一个单一的最坏情况保护带中已不再可行。静态保护带会牺牲性能和功耗，并且仍然无法抵御实际应用环境中的各种挑战。唯一可持续的方法是直接测量保护带，即在实际工作负载下，以高覆盖率实时监测时序裕量，并在产品生命周期内持续管理。其核心思想是直接监测时序裕量，而不是通过间接方法。”

随着工艺的成熟，可以在保持可接受良率的前提下减少裕量。但对于5nm以下的每个新节点，尤其是2nm及以下节点，实现这一目标所需的时间越来越长。尽管16/14埃节点正在研发中，10埃（相当于1nm）节点的研发工作也已启动，但从5nm之后的每个节点开始，达到足以满足大规模量产良率要求的量产所需的时间都在延长。

英特尔逻辑技术副总裁兼总经理 Ben Sell 表示：“14A 之后，下一个重要的制程节点是 10A。我们已经在研发这个节点了，但节点名称本身并不重要，重要的是它能否满足客户的需求。我们通常会先确定一个基础节点。我们会为少数几个最重要的客户定义一个基础节点。我们称这些客户为‘定义型客户’，节点就是根据他们的需求来定义的。如果这个节点满足了我们主要客户的需求，那么在与更多客户合作时，我们可能会对这个节点进行一些修改。比如增加几层金属层，或者进行一些小的改动，以满足特定产品的需求。但这些改动幅度相对较小，因为我们希望确保所有已开发的 IP 都能在芯片上使用，这样就无需重新设计已经过验证和测试的 IP。”

10A节点很可能是最后一个采用环栅场效应晶体管（GAA）的节点（尽管业界历来都有将技术推向超出预期水平的先例）。取而代之的是互补型场效应晶体管（FET），前后可能相差一两个节点，这种晶体管结合了在不同晶圆上开发的nFET和pFET。

“CFET 是一种器件架构，” Lam Research的首席人工智能官兼 Semiverse Solutions 公司副总裁 David Fried 表示，“与 FinFET 和环栅 FET 相比，它增加了前端的复杂性和挑战。结构更加复杂，涉及的材料也更多。这些材料之间的距离将比以往任何时候都更近。但 CFET 的有趣之处在于，从平面到 FinFET 再到环栅，我们的 nFET 和 pFET 一直都是横向相邻的。而对于 CFET 来说，它们将上下堆叠。这带来了巨大的结构复杂性，以及我们以前从未见过的互连复杂性。例如，许多背面的电源分配必须考虑到 nFET 和 pFET 是上下堆叠而不是相邻的。因此，CFET 的复杂性将渗透到该技术的许多其他方面。它不仅仅是晶体管的创新。”

图 1：CFET，显示了 nFET 和 pFET 的位置

经济形势的变化，加速了创新

人工智能数据中心的大规模建设和部署，从根本上改变了2纳米及以下制程芯片的设计和制造格局。虽然从功耗角度来看，芯片尺寸的缩小仍然被视为优势，性能方面也有一定程度的提升，但光罩尺寸的芯片上可用的空间不足以处理生成式人工智能和智能人工智能所需的大量数据。因此，与其试图将所有功能都塞进单个芯片，不如将重点转向多芯片封装的芯片组，尽管名称如此，但这些芯片组的尺寸可以与光罩尺寸相同。

这带来了一系列新的权衡取舍。对于定制化高级封装中的多个芯片而言，面积不再是主要问题，但数据的编排和传输却变得极具挑战性。解析人工智能计算是一个复杂的、大规模并行操作，其中处理过程可能被分配到不同的处理单元，最终将结果合并。自 IBM 在 20 世纪 80 年代首次大规模并行处理以来，最后一步一直是个难题。

首先，将所有数据同时移动到正确的位置极其困难。任何处理单元的延迟，或因工作负载特定的热梯度导致的一条或多条数据路径的不均匀老化，都可能降低整个系统的性能。此外，在20埃或更小的距离下，驱动芯片间长距离信号所需的电阻会增加功耗，从而导致封装内部温度升高。关键在于确定这些多芯片组件将如何利用特定的工作负载，因为这会影响封装内部热量的积聚位置。随着工作负载的变化，热量也会随之转移。这会导致热点的出现，进而加速电迁移，最终可能减缓甚至完全阻断数据传输。

“工作负载如今已成为首要的设计约束条件，”proteanTecs公司的兰德曼表示。“重要的不仅是计算量的使用，还有计算量随时间推移的使用方式。大型语言模型训练和推理模式会在芯片上造成高度不均匀的压力。即使是相同的芯片，瞬时峰值、局部热点和长时间的压力模式也会产生截然不同的结果。忽略工作负载行为的设计要么会过度约束，要么会在实际应用中显得脆弱。”

随着芯片逐渐演变为由连接到某种中介层的微型芯片组成的集合体，这一点变得尤为重要。此外，为了使用更细的导线在更长的距离上传输更多数据，还需要进行其他方面的改进。在最先进的工艺节点上，需要采用新的材料和工艺，以提高先进封装内部以及封装之间长距离传输电子（最终也包括光子）的迁移率，同时还要提高结构稳定性，并减少2.5D和3.5D结构中的翘曲。

“从高介电常数材料和金属栅极到用于应力源的硅锗，材料创新层出不穷，”Lam Research 的 Fried 说。 “随着先进逻辑晶体管的发展，我们大约每十年就会看到几项材料创新。在我目前的工作中——我涉及逻辑器件、DRAM、NAND、许多不同的专业市场以及先进封装——这种创新是持续不断的。从钨到钼的过渡已经在NAND和DRAM字线以及底层逻辑互连中发生。从钴到钌的过渡似乎还要过一段时间，但我们将在底层互连和布线等特定领域看到它的应用。你可以观察任何一项材料过渡，并发现它在多个不同技术领域——逻辑、DRAM和专业先进封装——的交汇点。这些过渡正在各个领域发生。专业技术领域令人无比兴奋。例如集成光子学。我们讨论集成光子学已经很久了，但这些大型人工智能系统真正推动了人们对集成光子学的更多关注。集成光子学的材料选择可能非常复杂，因此该领域将会出现材料过渡。”

在这样的尺寸下，规模经济和可重复性变得愈发重要。从2008年开始，芯片行业着手将晶圆尺寸从300毫米过渡到450毫米，以期在一片晶圆上制造更多芯片，从而抵消不断上涨的研发成本。然而，由于当时能够从450毫米晶圆中获益的公司数量不足，这项计划于2017年被搁置。

自那时以来，市场已经发生了变化。现在有四家领先的晶圆厂——英特尔晶圆厂、台积电晶圆厂、三星晶圆厂，以及新加入的Rapidus晶圆厂——同时，由于人工智能的发展，人们对更高性能的需求也永无止境。

仅仅提高时钟频率已不再可行，因为这会烧毁芯片，因此业界选择了采用多芯片方案，即芯片组（chiplet）。制造所有这些芯片组最经济的方法是使用大型矩形面板，而不是300毫米圆形晶圆。这与转向450毫米晶圆的原理相同，只是形状和尺寸不同，并且作为被动基板。矩形尺寸比圆形晶圆能容纳更多的芯片，而且工艺更容易标准化，而无需像从大型圆形晶圆中榨取更多可用面积那样费力。英特尔实验室甚至提出了面板级芯片方案，该方案基本上是将Cerebras开发的晶圆级方案扩展到500 x 500毫米的全尺寸面板上。

然而，这种变化的幅度令人望而生畏。它需要全新的设备和不同的薄晶圆处理方法，这绝非易事。此外，由于机械应力，最大偏差区域也从晶圆边缘转移到了面板中心。

Rapidus封装技术现场首席技术官Rozalia Beica表示：“圆形晶圆仍将是初期阶段，更多地应用于2.5D硅中介层。但即便如此，由于光罩尺寸的限制，业界也已开始转向面板封装。面板封装的产能将更高。这实际上取决于中介层的尺寸以及我们将要生产的封装类型，但我们将在同一家晶圆厂完成封装和硅芯片的制造。我们无需将芯片运送到其他晶圆厂或其他国家进行封装。”混合键合技术也正在蓬勃发展。Beica补充道：“这些芯片将采用晶圆级封装（DUIW）。晶圆级封装更适合混合存储器，但当器件尺寸不同时，晶圆级封装（DUIW）会更合适——但也更具挑战性。”

图 2：芯片封装结构的演变

更丰富的定制化方案

推动了先进制程节点的发展，其背后是财力雄厚的公司愿意投资定制硅芯片以满足其特定需求和数据类型。Rapidus 的晶圆级芯片 (DIO) 和面板级芯片 (DIO) 技术实现了超越 2nm 电子传输通道的定制化。与此同时，英特尔晶圆代工 (Intel Foundry) 将该传输通道集成到下层金属层中，然后提供额外的金属层以供定制，以及各种互连方式，例如桥接。台积电 (TSMC) 则通过其名为 NanoFlex 的技术，在其标准单元架构中提供灵活性。三星计划提供一种定制的 HBM，从不同的角度提升性能。最终，每家晶圆代工厂都会找到最适合自己的方案，很可能是多种方法的组合。

“通用平台将会存在，但有意义的定制化仍将保留，”proteanTecs公司的兰德曼表示。“不同的市场重视不同的权衡取舍。随着定制化程度的提高，设计意图、芯片实际情况、封装性能和系统运行之间快速关联的需求变得至关重要。正是这种反馈循环使得先进工艺节点能够超越早期采用者，实现规模化应用。”

高速地对数据进行优先级排序、分类和传输至关重要。在平面SoC中，从芯片一角向另一角发送信号仍然比通过中介层将信号传输到芯片外更快。事实上，在先进封装中实现类似速度的唯一方法是使用全3D集成电路，这种集成电路可以进行布局规划，使关键数据需要传输的距离比平面SoC更短。目前，这种方法已应用于HBM存储器堆栈下方的逻辑层，但DRAM堆栈能否达到或接近SRAM的速度还有待观察。此外，由于散热和偏差相关的问题，全3D集成电路在其他应用中是否具有成本效益也尚不明确。

光子学或许能提供一个可行的过渡方案。近期关于将光波导嵌入玻璃基板的讨论表明，这种方法可以显著加快数据传输速度，且产生的额外热量极少。其面临的挑战包括：如何防止玻璃开裂、如何在狭小空间内将光信号转换为电信号，以及如何应对热致光漂移。值得庆幸的是，许多玻璃和硅的热膨胀系数大致相同。

光学技术在多个领域发挥着越来越重要的作用。掩模写入技术的进步使得在晶圆上印刷各种形状（包括多边形和曲线形状）的精度大大提高。

英特尔的塞尔表示：“我们正在非常仔细地研究曲线形状。这是一种权衡，因为计算这些曲线形状的成本更高，但精度也更高。所以这取决于你需要多高的精度，因为微调也需要额外的成本。”

另一种选择是高数值孔径（NA）的极紫外（EUV）光刻技术。“Intel 18A 的设计允许我们使用单次 EUV 光刻，这非常棒，”Sell 说。“但展望未来，我们将不得不采用多次 EUV 光刻，而这正是用单次高 NA EUV 光刻替代多次低 NA EUV 光刻的机会所在。我们目前正在 Intel 14A 上进行这方面的研究。我们已经制定了设计规则，以便能够同时使用这两种技术。但随着时间的推移，如果能够用单次高 NA 光刻替代低 NA EUV，就能简化工艺流程并降低成本。我们对 14A 的各种方案持开放态度。我们知道低 NA EUV 光刻也能实现。而高 NA EUV 光刻则提供了降低成本的机会。”

另一种选择是在多芯片组件中组合不同类型的单元，这可以进一步降低成本。“IP是设计的关键组成部分，当然，IP是针对特定技术节点（例如2纳米）进行优化的，”Synopsys公司的Chakraborty表示。“因此，通过这种混合设计理念，您可以混合搭配不同的标准单元。您可以将高性能标准单元与低功耗标准单元以及高密度标准单元混合使用。现在有更多类型的标准单元可供选择，而工具必须非常智能地选择它们，才能最大限度地发挥其优势。如果您为了满足高性能计算AI设计中非常高的性能目标而到处使用高性能标准单元，那么您将付出功耗和其他指标方面的代价。但这种混合使用非常重要。”

结论

组件的混搭组合将重点从缩小数字逻辑尺寸转移到数据传输。所谓的“超越摩尔定律”设计是实现人工智能/高性能计算数据中心以及未来高性能边缘计算性能目标的唯一途径。在许多情况下，它们还能加快产品上市速度，因为它们利用了半导体制造领域数十年的经验积累。

“我们仍然会采用平面加工工艺，”弗里德说道。“我们仍然会将晶圆放入设备中，处理晶圆上暴露的所有内容。每个工艺都有其参数、变异性和相关的测量技术。这些都会渗透到你构建的任何结构中。工艺、参数和关键性能指标都会更多。但是，理解这些变异性如何渗透到技术中、它们如何相互作用、以及在哪里需要控制它们的基本数学原理并没有改变。数学计算量确实增加了，但本质上并没有改变。当技术还比较简单的时候，我们知道这些数学原理，并且我们进行了所有这些计算。我们最初是在脑海中进行计算，然后我们开发了一些相对简单的系统来实现这些计算。但现在工艺和参数如此之多，我们必须使用先进的系统，以及支撑这些系统的物理模型或虚拟硅，才能理清所有这些数学计算。”

（来源：编译自semiengineering ）

上一篇：牧原携手阿里云共建养猪大模型让养猪成为现代化产业

下一篇：小米MiMo Token Plan老用户专属“回归礼”福利公布

2nm芯片困境

相关内容

热门资讯