有选择的后摩尔堆叠时代

作者：米乐

台积电、英特尔等大厂近年来不断加大对异构集成制造及相关研发的投入。随着AIGC、8K、AR/MR等应用的不断发展，3D IC堆叠和chiplet异构集成已成为满足未来高性能计算需求、延续摩尔定律的主要解决方案。

不久前，华为公布了一项芯片堆叠技术的新专利，显示了该公司在芯片技术领域的创新实力。这项专利提供了一种简化芯片堆叠结构制备工艺的方法，有望解决芯片堆叠过程中的各种技术难题。堆叠技术可以提高芯片的效率，并更好地利用可用空间，进一步推动芯片技术的进步。尽管目前该专利与将两个14nm芯片堆叠成一个7nm芯片的传闻还未得到官方认可，但这一技术潜力巨大，可以为芯片制造商带来更多可能性。

后摩尔时代，堆叠已经大势。

01、计算堆叠需求

随着AIGC、AR/VR、8K等应用的快速发展，预计将产生大量的计算需求，特别是对能够在短时间内处理大数据的并行计算系统的需求。为了克服DDR SDRAM的带宽限制，进一步提升并行计算性能，业界越来越多地采用高带宽内存（HBM）。这一趋势导致了从传统的“CPU+内存（如DDR4）”架构向“芯片+HBM堆叠”2.5D架构的转变。随着计算需求的不断增长，未来可能会通过3D堆叠实现CPU、GPU或SoC的集成。

9 月中旬根据韩国 The Elec 报道，三星电子和 SK 海力士两家公司加速推进 12 层 HBM 内存量产。生成式 AI 的爆火带动英伟达加速卡的需求之外，也带动了对高带宽存储器（HBM）的需求。HBM 堆叠的层数越多，处理数据的能力就越强，目前主流 HBM 堆叠 8 层，而下一代 12 层也即将开始量产。

报道称 HBM 堆叠目前主要使用正使用热压粘合（TCB）和批量回流焊（MR）工艺，而最新消息称三星和 SK 海力士正在推进名为混合键合（Hybrid Bonding）的封装工艺，突破 TCB 和 MR 的发热、封装高度等限制。

Hybrid Bonding 中的 Hybrid 是指除了在室温下凹陷下去的铜 bump 完成键合，两个 Chip 面对面的其它非导电部分也要贴合。因此，Hybrid Bonding 在芯粒与芯粒或者 wafer 与 wafer 之间是没有空隙的，不需要用环氧树脂进行填充。三星电子和 SK 海力士等主要公司已经克服这些挑战，扩展了 TCB 和 MR 工艺，实现最高 12 层。

02、被堆叠“弃选”？

HBM 于 2013 年推出，作为高性能 SDRAM 的 3D 堆叠架构。随着时间的推移，多层 HBM 的堆叠在封装中已经变得普遍，而 CPU/GPU 的堆叠却没有看到重大进展。

造成这种差异的主要原因可归因于三个因素：

1、散热问题，CPU在工作时会产生大量的热量，需要通过散热器将热量散发出去，否则会导致CPU温度过高而损坏。如果多个CPU堆叠在一起，热量积聚在一起会导致散热问题更加严重，从而影响CPU的稳定运行。

2、信号干扰问题，在CPU内部，不同的电路之间需要进行大量的信号传输，如果多个CPU堆叠在一起，信号干扰就会更加严重，从而影响CPU的正常工作。

3、电路设计问题，CPU内部的电路设计非常复杂，需要严格的电路布局和连接方式，以保证CPU的正常工作。如果多个CPU堆叠在一起，电路设计就会更加复杂，可能会导致电路连接不良或者干扰等问题。IC 设计面临 EDA 工具缺乏的挑战，因为传统 CAD 工具不足以处理 3D 设计规则。开发人员必须创建自己的工具来满足工艺要求，而3D封装的复杂设计进一步增加了设计、制造和测试成本。

然后也不是没有解决办法。自从2.5D/3D封装、Chiplet、异构集成等技术出现以来，CPU、GPU和内存之间的界限就已经变得逐渐模糊。例如AMD如今在消费级和数据中心级别CPU上逐渐使用的3D V-Cache技术，就是直接将SRAM缓存堆叠至CPU上。将在今年正式落地的第四代EPYC服务器处理器，就采用了13个5nm/6nm Chiplet混用的方案，最高将L3缓存堆叠至了可怕的384MB。

在消费端，AMD的Ryzen 7 5800X3D同样也以惊人的姿态出世，以超大缓存带来了极大的游戏性能提升。即将正式发售的Ryzen 9 7950X3D也打出了128MB三级缓存的夸张参数，这些产品的出现可谓打破了过去CPU厂商拼时钟频率、拼核心数的僵局，让消费者真切地感受到了额外的体验提升。

GPU也不例外，虽然AMD如今的消费级GPU基本已经放弃了HBM堆叠方案，但是在AMD的数据中心GPU，例如Instinct MI250X，却依然靠着堆叠做到了128GB的HBM2e显存，做到了3276.8GB/s的峰值内存带宽。而下一代MI300，AMD则选择了转向APU方案，将CPU、GPU和HBM全部整合在一起，以新的架构冲击Exascale级的AI世代。

AMD CEO苏姿丰说过下一步就是直接将DRAM堆叠至CPU上。这里的堆叠并非硅中介层互联、存储单元垂直堆叠在一起的2.5D封装方案，也就是如今常见的HBM统一内存方案，AMD提出的是直接将计算单元与存储单元垂直堆叠在一起的3D混合键封装方案。

03、CPU如何垂直堆叠

放缓的摩尔定律，内存上的限制，例如内存墙这样的性能瓶颈，不仅在限制CPU的性能发挥，同样限制了GPU的性能发挥。苏姿丰指出，从她这个处理器从业者的角度来说，这一路线有些反常理，但从系统层面来说，她也可以理解该需求存在的意义。而AMD这次提出的方案，则是从计算芯片出发，将存储器堆叠整合进去。

3月22日，AMD宣布全面推出世界首款采用3D芯片堆叠的数据中心CPU，即采用AMD 3D V-Cache技术的第三代AMD EPYC（霄龙）处理器，代号“Milan-X（米兰-X）”。这些处理器基于“Zen 3”核心架构，进一步扩大了第三代EPYC处理器系列产品，相比非堆叠的第三代AMD EPYC处理器，可为各种目标技术计算工作负载提供高达66%的性能提升。

全新推出的处理器拥有业界领先的L3缓存，并具备与第三代EPYC CPU相同的插槽、软件兼容性以及现代安全功能，同时还可为技术计算工作负载提供卓越的性能，如计算流体力学（CFD）、电子设计自动化（EDA）和结构分析等。这些工作负载均是那些需要对复杂的物理世界进行建模以创建模型的公司的关键设计工具，从而为世界上那些极具创新性的产品进行测试或验证工程设计。

AMD高级副总裁兼服务器业务部总经理Dan McNamara表示：“基于我们在数据中心一直以来的发展势头以及我们的多项行业首创，采用AMD 3D V-Cache技术的第三代AMD EPYC处理器展示了我们领先的设计与封装技术，使我们能够带来业界首个采用3D芯片堆叠技术且专为工作负载而生的服务器处理器。我们最新所采用的AMD 3D V-Cache技术的处理器可为关键任务的技术计算工作负载提供突破性性能，从而带来更好的产品设计以及更快的产品上市时间。”

Micron公司高级副总裁兼计算与网络事业部总经理Raj Hazra说：“客户正在越来越广泛的采用数据丰富的应用，这对数据中心的基础设施也提出了新的要求。Micron和AMD的共同愿景是为高性能数据中心平台提供领先的DDR5内存的全部能力。我们与AMD之间的深度合作包括为基于Micron最新DDR5解决方案的AMD平台做好准备，以及将采用AMD 3D V-Cache技术的第三代AMD EPYC处理器引入我们自己的数据中心，我们已经看到了在特定的EDA工作负载中，与未采用AMD 3D V-Cache的第三代AMD EPYC处理器相比，性能提高了多达40%。”

一直以来缓存大小的提升都是性能改进的重中之重，特别是对于严重依赖大数据集的技术计算工作负载。这些工作负载受益于缓存大小的提升，但2D芯片设计却对CPU上可有效构建的缓存量有着物理上的限制。AMD 3D V-Cache技术通过将AMD “Zen 3”核心与缓存模块结合，解决了这些物理上的挑战，不仅增加了L3缓存数量，同时还最大程度减少了延迟并提高吞吐量。这项技术代表了CPU设计和封装方面的又一创新，并为目标技术计算工作负载带来了突破性性能。

04、英伟达的专利

早在 2017 年，英伟达就在国际计算机体系结构研讨会 (ISCA) 上展示了其 MCM-GPU 设计。英伟达计划使用多个逻辑芯片来互连大量内核，并开发具有持续性能改进的新 GPU，同时管理成本。随着 GPU 芯片越来越大，它们的成本呈指数级增长，因此制作一些相互连接的较小芯片是更具成本效益的解决方案。MCM-GPU 封装方法解决了这个问题，因为它连接多个芯片，从而提供巨大的性能提升作为回报。

芯片设计不限于二维缩放，而这正是英伟达今天所获得的专利。英伟达提出了“使用扩展 TSV 增强功率传输的面对面die”，提出了半导体die的 3D 堆叠，并特别说明了使用超长硅通孔 (TSV) 增强功率传输。

这种设置的工作方式是首先使用芯片表面上的探针垫测试基础芯片。之后，在第一个die的表面上形成界面层，覆盖在已经存在的探针焊盘上。最后，取出第二个die并将其安装在界面层上，将die间接口的焊盘连接到其他die上的互补连接。这创建了裸片的面对面安装，3D 芯片诞生了。

英伟达的专利专注于使用超长 TSV 增强电力传输。当像这样将芯片堆叠在一起时，您可以连接从逻辑（处理核心）到内存的任何东西。通常，连接内存不需要太多电力，因此提及增强的电力传输使我们得出结论，英伟达计划执行处理内核的堆叠，为 3D 处理器创建面向计算的方法。

05、EDA的进击

Cadence在LIVE中国台湾2023年用户年会上强调了其多年来在开发解决方案方面的努力。他们推出了Clarity 3D 解算器、Celsius 热解算器以及 Sigrity Signal and Power Integrity 等工具，可以解决热传导和热应力模拟问题。当与 Cadence 的综合 EDA 工具相结合时，这些产品有助于“Integrity 3D-IC”平台的发展，有助于 3D IC 设计的开发。

Intgrity 3D-IC平台是 Cadence 广泛 3D-IC 解决方案的组成部分，在数字技术之上同时集成了系统、验证及 IP 功能。广泛的解决方案支持软硬件协同验证，通过由 Palladium Z2 和 Protium X2 平台组成的Dynamic Duo系统动力双剑实现全系统功耗分析。平台同时支持基于小芯片的 PHY IP 互联，实现面向延迟、带宽和功耗的 PPA 优化目标。Intgrity 3D-IC平台支持与Virtuoso设计环境和 Allegro技术的协同设计，通过与Quantus Extraction Solution提取解决方案和Tempus Timing Signoff Solution时序签核解决方案提供集成化的IC签核提取和STA，同时还集成了Sigrity 技术产品，Clarity 3D Transient Solver，及Celsius Thermal Solver热求解器，从而提供集成化的信号完整性/功耗完整性分析（SI/PI），电磁干扰（EMI），和热分析功能。全新 Integrity 3D-IC 平台和更广泛的 3D-IC 解决方案组合，建立在Cadence SoC 卓越设计和系统级创新的坚实基础之上，支持公司的智能系统设计（Intelligent System Design ）战略。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
BSS84W-7-F	1	Diodes Incorporated	Small Signal Field-Effect Transistor, 0.13A I(D), 50V, 1-Element, P-Channel, Silicon, Metal-oxide Semiconductor FET, GREEN, PLASTIC PACKAGE-3	ECAD模型下载ECAD模型	$0.35	查看
7M-12.000MAAJ-T	1	TXC 台晶	Parallel - Fundamental Quartz Crystal, 12MHz Nom, ROHS COMPLIANT, SMD, 4 PIN	ECAD模型下载ECAD模型	$0.86	查看
EP2C35F484C8N	1	Intel Corporation	Field Programmable Gate Array, 2076 CLBs, 402.5MHz, 33216-Cell, CMOS, PBGA484, LEAD FREE, FBGA-484		$104.3	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

BSS84W-7-F

Diodes Incorporated

Small Signal Field-Effect Transistor, 0.13A I(D), 50V, 1-Element, P-Channel, Silicon, Metal-oxide Semiconductor FET, GREEN, PLASTIC PACKAGE-3