作者:九林
迈入百亿亿次时代,HPC芯片的战场再次吹响号角。
近日,台积电首季来自HPC营收贡献达41%,首度超越手机,成为最大营收来源。供应链也传出消息,英伟达内部预计,数据中心HPC芯片业绩年增长将达到200~250%左右,若进度顺利,最快2022年第3季初左右,采用5纳米强化版的新产品可望问世。
长久以来,追求更高的算力一直是产业的主要创新方向。此前,国家发改委高技术司相关负责人预计,国内每年的算力需求将保持在20%以上的增长速度。随着对算力要求越来越高,超级计算中心的诞生正成为承载AI工作量的主流趋势。
HPC芯片时代即将降临。
HPC芯片市场需求旺盛
未来,科技发展将会产生极大的算力需求,英特尔预计到2025年将是1000x(千倍级)的提升,而四年内增加1000倍相当于摩尔定律的5次方。从新冠疫情的检测到气候变化、金融风险分析和产品开发,世界有很多重大且具有挑战性的问题需要解决。HPC系统快速准确的数据处理能力,以及人工智能和机器学习算法,通过分析、建模和模拟将海量数据转化为可操作的见解。
HPC使用户能够比标准计算机更快地处理大量数据,从而更快地获得洞察,并使组织能够在竞争中保持领先地位。HPC解决方案的运算速度是最快的笔记本速度的一百万倍。
从Hyperion Research 2021对HPC市场跟踪报告来看,2020和2021年全球线下服务器市场分别为137和140亿美元,预测2022年将达到160亿美元;从HPC集群规模细分来看,超算、分支、部门和工作组分别为59亿、29亿、38亿和14亿美元。
HPC诞生于内部数据中心,但在2010年下半年,云计算开始改变HPC。该优势最近作为一种新的HPC部署平台出现了。随着高性能解决方案领域的扩展,供应商已经开始提供混合选项。混合的HPC解决方案通常涉及补充现有内部数据中心的云能力。
英特尔曾经错失了手机移动端SoC,被ARM反超;又在人工智能计算时代被英伟达的GPU反超。但是,英特尔这次推出的GPU目标是能够在人工智能训练领域有所成就。基于Xe HPC微架构的数据中心GPU Ponte Vecchio是英特尔迄今最复杂的SoC,包含1000亿个晶体管,提供领先的浮点运算和计算密度,以加速AI、HPC和高级分析工作负载。而英特尔推出的Ponte Vecchio是为Aurora超级计算机提供动力的处理器,Aurora超级计算机将会成为美国首批突破exaflop障碍的高性能计算机之一。
虽然,目前的GPU市场是AMD和英伟达的天下,但英特尔在GPU有很多技术积累。另外,未来计算架构的发展趋势是CPU和GPU融合集成,从而形成互联、互补、互通的融合模式,以缩小计算和存储单元的通信成本。作为在CPU领域引领多年的英特尔,在这一趋势中也有着得天独厚的优势。英特尔GPU的愿景也逐渐清晰:在计算多元化、算力需求爆发式增长的大趋势下,英特尔GPU将成为驱动新兴行业发展的算力基石,同时也将成为英特尔自身业务增长的突破点。
英伟达方面,得益于AI和图形增长,X86 CPU衰落,以及数据中心计算规模增长,全球主要云计算提供商都在使用英伟达产品。TOP10有8台和TOP500有342台的超级计算机都是英伟达产品,22年该板块营收为106.1亿美元,5年复合年增长率为66%。
在数据中心市场,英伟达推出了针对大型HPC和云计算的高性能CPU——Grace。此前有媒体报道,英伟达的下一代Ada lovelace架构的RTX 40系列GPU将采用台积电5nm工艺。
在今年英伟达也再次加码,收购Bright Computing。而纵观Bright Computing,为HPC装置销售大规模集群管理软件,其平台支持x86和基于Arm的芯片以及英伟达的GPU,并且可以灵活地部署在数据中心、跨公共云或网络边缘。英伟达也表示此次收购将生产用于管理HPC系统的软件。
AMD将在今年推进5nm Zen 4架构处理器的研发进度,并且预计在2023年至2024年推出3nm Zen 5架构处理器。对于先进制程,英伟达、AMD率先发起抢单攻势,争抢坐上头把交椅。
HPC分析公司 Hyperion Research的首席执行官 Earl Joseph表示,他预计未来几年基于 Arm 处理器的 HPC服务器将出现高速增长。
Arm 已经在 HPC行业占据了一席之地。
在日本 RIKEN 实验室的“Fugaku”超级计算机 以152064个48核排名世界第一的富士通A64FX处理器就是基于Arm架构打造的。
“我们预计五年增长率将超过 31%,而基础市场的增长率约为 7% 至 8%,”Joseph说。他补充说,这相当于到 2025 年基于 Arm 的系统将占 HPC市场的 10% 左右。
HPC芯片带动先进封装
随着HPC需求的增大,台积电HPC客户需求也在增多,HPC在台积电的营收占比中迅速提升,包括AMD和英伟达在内的供应商在其HPC处理器中采用了台积电的CoWoS封装。
实际上,2017年起台积电也开始将InFO_oS技术应用在HPC的芯片上,并进入量产。台积电推出的InFO_SoW先进封装技术,是将HPC芯片在不需要基板及PCB情况下,直接与散热模组整合在单一封装中。应用在人工智能推论芯片的InFO_MS技术已经在2019年下半年认证通过,可支持1倍光罩尺寸中介层及整合HBM2存储器。苹果的A系列处理器就是InFO_PoP封装最大客户。
在对HPC芯片封装的进程中,台积电还推出支持超高运算效能HPC芯片的SoW封装技术。SoW封装技术的最大特点就是将包括芯片阵列、电源供应、散热模组等整合,利用高达6层路线重分布(RDL)制程技术,将多颗芯片及电源分配功能连结,再将其直接贴合在散热模组上,如此就不需采用基板及PCB。
在HPC芯片封装上,身为国际封测龙头的日月光也不甘落后。有消息称,日月光旗下的矽品有能力为HPC解决方案提供利用硅桥的封装技术,其扇出嵌入式桥(FO-EB)与英特尔和台积电的硅桥产品相比已经具有竞争力。凭借先进的封装能力,日月光已切入了美国一流服务器芯片公司的供应链。
成为Chiplet的幕后推手
高性能计算应用程序需要功能更强大的处理器,这些处理器可以处理大量工作负载以解决这些复杂问题,但是不会消耗太多能量。这就需要芯片设计同时达到高性能和低功耗,挑战在于设备及其多核架构如何将高带宽密度与低延迟和高能效相结合。
非常大的芯片,例如 Cerebras Wafer-Scale Engine,为超大规模生产者提供了一种选择。但从良率的角度来看,大型、先进节点、单片芯片的生产成本高昂且具有挑战性。从架构的角度来看,所有超级计算机都是相似的。系统由大量机架组成,每个机架都包含许多计算节点。每个计算节点都有多个 CPU 和 GPU。传统上,这些芯片中的许多都是大型且复杂的片上系统 (SoC) 设备,其中所有功能都集成在一个单片芯片上。
但实际上,作为一种先进的封装技术,Chiplet提供了一个潜在的答案,可以在满足这些对 HPC芯片飞速发展的性能需求。
小芯片是小芯片,当集成到单个封装中时,会形成更大的多芯片设计。通过将较大的设计划分为小芯片,设计人员可以获得产品模块化和灵活性的好处。即使是在不同工艺节点上开发的单独芯片,也可以组装到一个封装中,以满足不同的细分市场或需求。与大型单片芯片相比,它们也更容易制造并产生更好的产量。
至于小芯片封装,有多种选择来支持更高的晶体管密度,包括多芯片模块(MCM)、2.5D 和 3D 技术。作为系统级封装 (SiP) 的最早类型,MCM已经有几十年的历史了。MCM 将至少两个 IC 通过引线键合连接在一个单一的封装中。2.5D设计包括GPU和高带宽内存(HBM)并排组装在单个封装中的中介层上。尽管逻辑没有堆叠,但在某些2.5D设计中,HBM由3D堆叠内存组成,从而将3D内容带入2.5D设计。在3D封装中,异质管芯垂直堆叠并通过硅通孔(TSV)连接,该架构为非常快的内存访问带宽铺平了道路。
HPC设计通常使用各种封装类型的小芯片。MCM是更小、低功耗设计的理想选择。2.5D设计适用于人工智能(AI)工作负载,因为与HBM紧密连接的GPU在计算能力和内存容量方面提供了强大的组合。3DIC 具有垂直堆叠的 CPU 和快速的内存访问,是一般 HPC工作负载的理想选择。
Hyperion Research 研究高级副总裁 Bob Sorensen 说,“所以从理论上讲,小芯片只是单个封装中多个裸片的最新化身。但是小芯片可以让 HPC设计人员构建具有最适合 HPC预期工作负载的精确计算、内存和 I/O 功能的处理器。”
迈入百亿亿次时代
现在,不同国家正在相互竞争,积极部署基于小芯片的百亿亿次超级计算机,这是一种比当今超级计算机快1000倍的新型系统。中国、欧洲、日本和美国一直在开发Exascale级的超级计算机,每秒执行10亿次计算。美国还在开发另外两台百亿亿级超级计算机,包括正在阿贡国家实验室建造的Aurora。Aurora是围绕英特尔的服务器处理器和GPU构建的。
对于百亿亿级超级计算机,Frontier、El Capitan和Aurora系统已经开始采用基于Chiplet的解决方案。
迈入百亿亿次时代,HPC芯片的战场再次吹响号角。