作者:丰宁
HBM(HighBandwidth Memory,高带宽内存)是一款新型的CPU/GPU内存芯片,其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。该内存技术突破了内存容量与带宽瓶颈,被视为新一代DRAM解决方案,也契合了半导体技术小型化、集成化的发展趋势。
过去10年里,HBM技术性能不断升级迭代,已经成为高性能计算领域重要的技术基石之一。2023年初以来,以ChatGPT为代表的AI大模型催生了巨量的算力需求,使HBM成为整个存储芯片行业为数不多的比较景气的细分市场。在当下的HBM市场有两大热词,一个是“HBM3缺货”另一个便是“HBM4技术竞赛”。HBM3缺货的号角已经吹响很久。
近日SK海力士CEO郭鲁正透露,公司今年的HBM产能已经全部售罄,明年订单也基本售罄。三星电子也透露,HBM产能已售罄。美光科技也在日前的财报电话会议上透露,其HBM产品已全部售罄,且2025年的大部分产能也已被预订。
尽管HBM产能的紧张状况日益凸显,三大原厂也并未因此而减缓新技术开发的步伐,反而将HBM4的技术竞赛推向了更高的热度。那么HBM4较HBM3有哪些不同?HBM4又能给我们带来哪些惊喜?HBM4的推进是否会影响HBM3未来产能开出?在此之前,先来了解一下HBM4。
01、HBM4亮点几何?
据悉,自2015年以来,从HBM1到HBM3e各种更新和改进中,HBM在所有迭代中都保留了相同的1024位(每个堆栈)接口,即具有以相对适中的时钟速度运行的超宽接口。
然而,随着内存传输速率要求不断提高,尤其是在DRAM单元的基础物理原理没有改变的情况下,这一速度将无法满足未来AI场景下的数据传输要求。为此,下一代HBM4需要对高带宽内存技术进行更实质性的改变,即从更宽的2048位内存接口开始。
接口宽度从每堆栈1024位增加到每堆栈2048位,为HBM4带来突破性变革。采用2048位内存接口,理论上也可以使传输速度再次翻倍。例如,英伟达的旗舰Hopper H100 GPU,搭配的六颗HBM3达到6144-bit位宽。如果内存接口翻倍到2048位,英伟达理论上可以将芯片数量减半到三个,并获得相同的性能。
HBM4在堆栈的层数上也有所变化,除了首批的12层垂直堆叠,预计2027年存储器厂商还会带来16层垂直堆叠。堆叠技术的进步意味着在同一物理空间内可以容纳更多的内存单元,从而显著提高内存容量和带宽。这种高密度堆叠技术对于需要大容量和高速访问的应用来说是一个巨大的优势,特别是在数据中心和超级计算机中。作为对比,HBM3的堆叠层数主要为8层/12层。
此外,HBM还会往更为定制化的方向发展,不仅排列在SoC主芯片旁边,部分还会转向堆栈在SoC主芯片之上。随着技术的进步,HBM4E 有望带来更低的功耗。这将有助于减少系统能耗,降低发热,延长设备的电池寿命。与此同时,HBM4E 内存有望在各种领域得到应用,包括人工智能、高性能计算、数据中心、图形处理等领域,为这些领域带来更高的性能和效率。
02、各存储巨头各展神通
在技术层面,SK海力士将继续采用先进的MR-MUF技术,从而实现 16 层堆叠。
在MR-MUF(批量回流模制底部填充)中,批量回流焊(MR)是通过融化堆叠芯片之间的凸块,让芯片互相连接的技术。模塑底部填充(MUF)是在堆叠的芯片之间填充保护材料从而提高耐久性和散热效果的技术。使用MR-MUF,则可同时封装多层 DRAM。与此同时SK海力士还致力于芯粒(Chiplet)及混合键合(Hybrid bonding)等下一代先进封装技术的开发,以支持半导体存储器和逻辑芯片之间的异构集成,同时促进新型半导体的发展。根据SK海力士最新公布的信息显示,HBM4将比第五代HBM3E速度提升40%,而耗电量仅为后者的70%。
SK海力士还计划在HBM4基础芯片上采用台积电的先进逻辑工艺,以便可以将附加功能封装到有限的空间中。这也有助于 SK 海力士生产定制 HBM,满足客户对性能和功效的广泛需求。SK海力士和台积电还同意合作优化SK海力士的HBM和台积电的CoWoS(基板上晶圆芯片)技术的集成,同时合作响应常见客户与HBM相关的要求。SK 海力士总裁兼 AI 基础设施负责人Justin Kim表示:“我们希望与台积电建立强有力的合作伙伴关系,以帮助加快我们与客户的开放合作,并开发业界性能最佳的 HBM4。”上个月,两家公司签署了谅解备忘录。
三星:同步开发混合键合和传统的 TC-NCF 工艺
三星电子在 HBM4 内存键合技术方面采用两条腿走路的策略,同步开发混合键合和传统的 TC-NCF (thermal compression with non-conductive film非导电薄膜热压缩)工艺。混合键合技术作为一种新型的内存键合方式,相较于传统的键合工艺,具有显著的优势。它摒弃了在DRAM内存层间添加凸块的繁琐步骤,直接通过铜对铜的连接方式实现上下两层的连接。这种创新的方式不仅提高了信号传输速率,更好地满足了AI计算对高带宽的迫切需求,同时也降低了DRAM层间距,使得HBM模块的整体高度得到缩减。混合键合技术的成熟度和应用成本一直是业界关注的焦点。为了解决这一问题,三星电子在HBM4内存键合技术方面采取了多元化的策略。除了积极推进混合键合技术的研究与应用,三星电子还同步开发传统的TC-NCF工艺,以实现技术多样化,降低风险,并提升整体竞争力。
从技术上看,TC-NCF是一种与MR-MUF略有不同的技术。在每次堆叠芯片时,都会在各层之间放置一层不导电的粘合膜。该薄膜是一种聚合物材料,用于使芯片彼此绝缘并保护连接点免受撞击。这种方法的优点是可以最大限度地减少随着层数增加和芯片厚度减小而可能发生的翘曲,使其更适合构建更高的堆栈。据悉,SK海力士在第二代HBM之前也使用NCF,但从第三代(HBM2E)开始改用MUF(特别是MR-MUF)。业内人士认为MUF是SK海力士能够在HBM市场脱颖而出的原因。也正因此不少人士对三星的技术路线保持怀疑。不过,三星副总裁 Kim Dae-woo 表示,在最多 8 个堆叠时,MR-MUF的生产效率比 TC-NCF 更高,但一旦堆叠达到 12 个或以上,后者将具有更多优势。该副总裁还指出,当 HBM4 推出时,定制请求预计会增加。
美光:HBMnext或出奇招
在HBM芯片上,美光科技也加快了追赶两家韩国存储巨头的步伐。不过在技术细节上,美光并未公布太多信息。关于未来的布局,美光披露了暂名为HBMnext的下一代HBM内存,业界猜测这有可能便是其HBM 4。美光预计HBMNext将提供36 GB和64 GB容量,这意味着多种配置,例如12-Hi 24 Gb堆栈(36 GB)或16-Hi 32 Gb堆栈(64 GB)。至于性能,美光宣称每个堆栈的带宽为1.5 TB/s–2+TB/s,这意味着数据传输速率超过11.5 GT/s/pin。与三星和SK海力士不同,美光似乎并不打算把HBM和逻辑芯片整合到一个芯片中,在下一代HBM产品发展上,美光或许想要通过HBM-GPU的组合芯片形式以获得更快的内存访问速度。不过美媒表示,随着机器学习训练模型的增大和训练时间的延长,通过加快内存访问速度和提高每个GPU内存容量来缩短运行时间的压力也将随之增加,而为了获得锁定HBM-GPU组合芯片设计(尽管具有更好的速度和容量)而放弃标准化DRAM的竞争供应优势,可能不是正确的前进方式。
03、三大原厂的HBM4量产时间
关于量产时间,SK 海力士在 5 月举行的记者招待会上表示,其 HBM4 内存的量产时间已提前到 2025 年。具体来说,SK 海力士计划在 2025 年下半年推出采用 12 层 DRAM 堆叠的首批 HBM4 产品,而 16 层堆叠 HBM 稍晚于 2026 年推出。据三星的规划,HBM 4将在2025年生产样品,2026年量产。美光预计将在2026年推出12和16层堆叠的HBM4,带宽超过1.5TB/ s;到2027~2028年,还将发布12层和16层堆叠的HBM4E,带宽可达2TB/s以上。如果按照当前各家的计划推进,那么SK海力士将先人一步。
04、台积电也在为HBM4蓄力
除此之外,台积电也在积极开发与优化其封装技术,以支持HBM4的集成。在今年4月的北美技术研讨会上,台积电推出了下一代晶圆系统平台——CoW-SoW——该平台将实现与晶圆级设计的 3D 集成。该技术建立在台积电 2020 年推出的 InFO_SoW 晶圆级系统集成技术的基础上,该技术使其能够构建晶圆级逻辑处理器。
据了解,台积电的CoW-SoW专注于将晶圆级处理器与HBM4内存集成。下一代内存堆栈将采用 2048 位接口,这使得将 HBM4 直接集成在逻辑芯片顶部成为可能。同时,在晶圆级处理器上堆叠额外的逻辑以优化成本也可能是有意义的。
随后在5月中旬的2024年欧洲技术研讨会上,台积电表示,将使用其12FFC+(12nm级)和N5(5nm级)制程工艺制造HBM4芯片。台积电设计与技术平台高级总监表示:“我们正在与主要的HBM内存合作伙伴(美光、三星、SK海力士)合作,开发HBM4全栈集成的先进制程,N5制程可以使HBM4以更低的功耗提供更多的逻辑功能。”
N5制程允许将更多的逻辑功能封装到HBM4中,并实现非常精细的互连间距,这对于逻辑芯片上的直接键合至关重要,可以提高AI和HPC处理器的内存性能。相对于N5,台积电的12FFC+工艺(源自该公司的16nm FinFET 技术)更加经济,制造的基础芯片能构建12层和16层的HBM4内存堆栈,分别提供48GB和64GB的容量。
台积电还在优化封装技术,特别是CoWoS-L和CoWoS-R,以支持HBM4集成。这些先进的封装技术有助于组装多达12层的HBM4内存堆栈。新的转接板能确保2000多个互连的高效路由,同时保持信号完整性。据台积电介绍,到目前为止,实验性HBM4内存在14mA时的数据传输速率已达到6 GT/s。台积电还在与Cadence、Synopsys和Ansys等EDA公司合作,对HBM4通道信号完整性、IR/EM和热精度进行认证。那么,关于HBM4未来的研发进度,我们是否应担忧它会侵占HBM3的产能呢?毕竟,HBM3当前的产能状况已经相当紧张。
05、HBM4是否会挤压HBM3的产能?
众所周知,HBM3市场的主要竞争者也只有SK海力士、三星和美光三大家。
各家HBM3系列产品量产进度
据悉,美光、SK海力士和三星先后在去年7月底、8月中旬、以及10月初向英伟达提供了8层垂直堆叠的HBM3E(24GB)样品。其中美光和SK海力士的HBM3E在今年初已通过英伟达的验证,并获得了订单。今年3月SK海力士宣布,公司将超高性能用于AI的存储器新产品HBM3E率先成功量产,从3月末开始向客户供货。美光也宣布已开始批量生产其HBM3E解决方案,其首款24GB 8H HBM3E产品将会用于NVIDIA H200 GPU,将于2024年第二季度开始发货。不过近日,据DigiTimes报道,三星HBM3E尚未通过英伟达的测试,仍需要进一步验证。据了解,三星至今未能通过英伟达验证主要卡在台积电的审批环节。作为英伟达数据中心GPU的制造和封装厂,台积电也是英伟达验证环节的重要参与者,传闻采用的是基于SK海力士HBM3E产品设定的检测标准,而三星的HBM3E产品在制造工艺上有些许差异,比如SK海力士采用了MR-RUF技术,三星则是TC-NCF技术,这多少会对一些参数有所影响。不过,5月24日,三星否认了有关其高带宽内存芯片尚未通过英伟达的测试以用于这家美国芯片巨头的人工智能处理器的报道。三星表示,其与全球各合作伙伴的 HBM 供应测试正在“顺利”进展。三星在上个月发布的2024年第一季度财报中表示,8层垂直堆叠的HBM3E已经在4月量产,并计划在第二季度内量产12层垂直堆叠的HBM3E,比原计划里的下半年提前了。按照三星的说法,这是为了更好地应对生成式AI日益增长的需求,所以选择加快了新款HBM产品的项目进度。HBM的供应紧张局面,主要是来自于英伟达、AMD等芯片巨头对于HPC和GPU的强劲需求。在此背景下,各大存储龙头纷纷掏出重金推进HBM扩产计划。
扩产动作频频
SK海力士在今年4月宣布,计划扩大包括HBM在内的下一代DRAM的产能,以应对快速增长的AI需求。公司将投资约5.3万亿韩元(约279.84亿人民币)建设M15X晶圆厂,作为新的DRAM生产基地。该公司计划于4月底开工建设,目标于2025年11月竣工并尽早量产。随着设备投资计划逐步增加,新生产基地建设总投资长期将超过20万亿韩元。值得注意的是,在此前的一次电话会议中,SK海力士表示,将扩大HBE生产设施投资,对通过硅通孔(TSV)相关的设施投资将比2023年增加一倍以上,力图将产能翻倍。近日,SK 海力士产量主管 Kwon Jae-soon表示,该企业的 HBM3E 内存良率已接近 80%。此外,Kwon Jae-soon 也提到,SK 海力士目前已将 HBM3E 的生产周期减少了 50%。更短的生产用时意味着更高的生产效率,可为英伟达等下游客户提供更充足的供应。这位高管再次确认 SK 海力士今年的主要重点是生产 8 层堆叠的 HBM3E,因为该规格目前是客户需求的核心。三星执行副总裁兼DRAM产品与技术部负责人Hwang Sang-joong在加州圣何塞举行的“Memcon 2024”会议上透露了三星的产能扩增计划。Hwang表示,三星预计今年的HBM芯片产量将比去年增长2.9倍,这一数字甚至高于三星早些时候在CES 2024上所预测的2.4倍的增长。此外,三星还公布了其HBM技术蓝图,预测到2026年,其HBM的出货量将比2023年高出13.8倍,而到了2028年,这一数字将进一步攀升至2023年的23.1倍
为了满足HBM领域的旺盛需求,美光也小幅上调了本财年的资本支出预算,由原计划的75~80亿美元调整为80亿美元。美光预计,未来几年内,其HBM内存位元产能的年均增长率将达到50%。
产能何时开出?HBM4是否冲突HBM3?
观察发现,存储三巨头的新一代HBM4的推出时间预计最早将落在2025年下半年,而全面步入批量生产的步伐可能需等待至2026年。再细观各家新产能的筹备情况,SK海力士的新工厂预计将在2025年11月竣工,若竣工后立即投入生产,新产能的启动亦将紧随其后,预计在2025年底。三星预测,到2026年,其HBM的出货量将较2023年激增13.8倍。而美光科技虽在行动上稍显稳健,但从前两家公司的产能扩展态势来看,届时HBM的产能紧张问题或许已得到缓解,HBM4的量产时机与新产能的启动有望相互呼应。然而,考虑到新产品上市所需的适配周期和良率提升过程,以及部分订单从HBM3向HBM4的迁移,HBM4的推进在短期内对HBM3的市场影响或许不会过于显著。