作者:畅秋
当下,高性能计算(HPC)芯片成为半导体产业发展的主要驱动力,无论是IC设计、晶圆代工,还是封装测试企业,正在将越来越多的资源和精力由手机转向HPC市场,特别是人工智能(AI)服务器芯片。
目前,称霸HPC芯片市场的依然是以英特尔、英伟达和AMD这三巨头为代表的美国企业,不过,这些公司的优势主要体现在IC设计上,在芯片制造,特别是晶圆代工,以及封装测试方面,美国企业在全球范围内没有优势。
在HPC芯片和系统方面,中国本土相关企业和产品一直处于追赶状态,与国际领先技术和企业之间有明显差距。不过,受多种因素影响,近几年,这种落后的局面正在悄然改变,无论是IC设计,还是晶圆代工,以及封装测试,中国本土企业的技术和产品力在加速提升。这些给美国HPC芯片大厂带来了挑战,在美国政策和中国本土产品竞争力提升的双重压力下,这些美国芯片大厂也在想办法突围。
01制程不够,封装来凑
HPC芯片对晶圆厂的制程工艺要求很高,能够完全提供这种产能的晶圆厂不多,这就是美国积极邀请台积电和三星在其本土建设5nm及以下先进制程晶圆厂的主要原因。但是,这样的产能建设需要时间和技术积累,短期内难以形成规模,做先进封装相对容易一些,而且很实用,因为异构芯片很受市场欢迎,而先进封装是实现异构芯片的关键一环,实现起来又比5nm、3nm这样的芯片制造产线要容易,因此,无论是美国,还是中国大陆,都把发展先进封装技术和产线看得很重。
市场对先进封装有怎样的需求呢?以HPC芯片大厂英伟达和AMD为例说明一下。
业界估算,2024年,英伟达和AMD的AI芯片出货量总计有望达到150万个。据悉,AMD的MI300A于今年第一季度开始量产出货,采用了Chiplet(小芯片)设计,其中,CPU和GPU部分采用台积电5nm制程,I/O部分采用6nm,并通过台积电全新系统整合芯片封装(SoIC)和CoWoS整合。
与H100类似,英伟达最新产品H200依然供不应求,预计该公司在2024年底前还会推出采用台积电3nm制程的B100和GB200等新产品,估计英伟达今年AI芯片出货总量不会低于100万个,与2023年相比翻倍。这些Chiplet设计产品都需要先进封装,台积电的相关产能已经供不应求,这也是2023全年高性能GPU供不应求的重要原因,这些GPU多采用CoWoS封装技术,目前,CoWoS供需缺口不低于20%,除了英伟达,越来越的国际IC设计大厂也在持续增加订单。预计到2024下半年,台积电CoWoS产能将增加130%,加上有更多厂商(日月光ASE、Amkor、矽品、三星和JCET等)积极切入CoWoS供应链,先进封装市场一片红火。
因此,无论是美国企业(如英特尔和Amkor),还是美国政府,都在大力发展或扶持先进封装产线。
美国DARPA推出了一项名为下一代微电子制造(NGMM)的新计划,主要关注点是 3D异构集成微系统 (3DHI),该计划认为,微电子创新的下一个主要浪潮将来自通过先进封装集成异质材料、器件和电路的能力。可以通过新的封装和集成技术将内存和处理器集成,显著提高芯片性能,芯片能够在不增加更多晶体管的情况下大幅提高速度。
DARPA表示该计划的目标是建立一个3DHI制造中心,并可供学术界、政府和行业用户使用。衡量它成功的标准是能否以合理的成本支持设计、制造、封装和测试各种高性能3DHI微系统,且支持快节奏的创新研究。
去年11月,美国政府宣布了国家先进封装制造计划愿景(NAPMP),NAPMP是4个CHIPS for America研发计划之一,政府预计向该计划投入约30亿美元,该计划的初始资助分配将于2024年初公布。
企业方面,美国最大,全球排名第二的封测企业Amkor于2023年底宣布在亚利桑那州建设一座先进芯片封装厂,该项目将专注于高性能计算芯片的封装和测试。据悉,该工厂将在2~3年内投入生产,并已向美国政府申请CHIPS补贴。该工厂建成后,将与附近的台积电新建晶圆厂配合,为苹果、AMD、英伟达、博通等本土大客户提供先进制程芯片制造和封测服务。
02美国HPC芯片大厂遭遇挑战
除了先进制程制造和封装产能,美国HPC芯片大厂还面临着销售渠道不畅通,以及更多竞争对手的挑战。
以英伟达为例,中国大陆市场占其销售额的20%左右,该公司不得不多次改变GPU性能规格,以满足美国政府的出口要求。
2022年8月,美国政府禁止向中国大陆出口英伟达的A100和H100芯片,AMD的MI250也被纳入限制名单,因为这些芯片的通信带宽达到了600GB/s或更高。针对中国大陆市场,英伟达随后推出了A800和H800处理器,通信带宽都明显低于600GB/s。
2023年10月,美国商务部工业与安全局(BIS)表示,将使用 “性能密度”作为新参数对受限芯片进行分类。根据新规定,英伟达的A800、H800、L40、L40S和RTX 4090相关产品被禁止销往中国大陆。针对这项规定,英伟达又于去年11月推出了三款AI芯片——H20、L20和L2,但要到2024年第二季度才能量产交付。
针对RTX 4090在中国大陆销售受限问题,英伟达开发出了RTX 4090 D显卡,通过降低部份规格,以符合美国出口管制要求。据悉,RTX 4090 D满足综合运算性能(TPP)4800限制,RTX 4090的TPP是5286。
最近,英伟达推出了最新版本的中国特供GPU和显卡RTX 5880 Ada,符合4800 TPP的限制规定。英伟达将AD102芯片用于RTX 6000 Ada和RTX 5000 Ada,RTX 5880 Ada很可能使用相同芯片的变体。AD102拥有18,432个CUDA内核。
不止英伟达,由于受到同样的出口限制,英特尔和AMD也在向中国大陆市场推出定制化的GPU和CPU产品。
2023年7月,英特尔针对中国市场推出了一款定制版的AI训练处理器Gaudi2。由于MI300系列产品受到美国新规限制,AMD也计划向中国大陆市场推出特供版的MI300。
这几家美国处理器大厂如此热衷于为中国大陆市场开发定制版产品,主要原因是这里的市场巨大,有足够的赚钱空间。不过,随着近几年美国限制政策的出台,以及中国本土企业和产品竞争力的提升,英伟达等厂商的技术和产品优势正在缩小。例如,英伟达的H20在性能和效率上仍比中国本土AI芯片具有优势,但这种优势正在缩小,因为多家中国本土芯片厂商正在快速发展。
事实上,一些中国大陆科技公司已经转向使用本地芯片。
由于中国本土AI芯片与英伟达特供版产品之间的差距缩小,进入2024年以来,多家中国互联网大厂和云服务提供商表示,今年下订的英伟达H20等产品数量将远少于原本想买的,因为本土相关芯片的用量增加了。
测试结果显示,H20能有效在多个处理器之间高效传输数据,比中国本土相关芯片更适合AI计算应用,但是,需要更多H20才能表现出英伟达常规GPU的算力,这就大幅提高了成本。相比之下,中国本土最先进的AI芯片也能处理AI相关应用,只是处理任务的复杂度低于英伟达的。知情人士表示,多家中国互联网大厂和云服务提供商已经把一些AI芯片订单转至本土厂商。
不止中国市场,英伟达、英特尔等HPC芯片大厂还要面对来自美国本土客户的竞争。微软、Meta、亚马逊等云服务提供商为了降低芯片成本,并使芯片供应链多元化,减少对英伟达的依赖,不仅开始提升采购AMD的MI300系列产品数量,要求ODM厂设计专门采用MI300系列产品的AI服务器,还纷纷加强自研HPC芯片力度,争取将更多自研芯片用于自家的互联网和云计算系统。
这样看来,虽然英伟达和AMD依然很风光,但受限于先进制程、封装产能,以及来自各级别芯片对手的竞争,这几家处理器传统大厂是有隐忧的,未来的日子不会像现在这么好过。
03中国本土AI系统的崛起和不足
中国是电子信息制造和消费大国,对GPU和CPU需求量巨大。近年来,国产GPU公司,如璧韧科技、摩尔线程、芯动科技、天数智能、华为等纷纷发布新品,且含金量越来越高。总体来看,中国本土GPU和CPU性能及生态系统正在逐步完善。
以华为为例,该公司自研的Ascend 910系列处理器,特别是其最新版本芯片得到了越来越多中国本土IT系统设备和互联网大厂的青睐,订单量持续提升。除了芯片本身,华为还提供相应的开发工具包和跨AI的云训练服务。2023年8月,科大讯飞董事长刘庆峰高度评价了华为开发的处理器,将它与英伟达的A100进行了比较,刘庆峰表示,科大讯飞正在与华为合作进行硬件开发。当然,不止科大讯飞一家,有几家中国本土头部IT和互联网大厂都在与华为和其它本土HPC芯片企业合作,开发高性能计算系统。
经过多年的潜心研发和沉淀,近两三年,龙芯迎来了收获季。
2023年底,龙芯正式推出了3A6000处理器。3A6000依然基于该公司自研的LoongArch指令集架构,工艺制程依旧是12nm,内核升级为LA664,也就是64位。3A6000为4核处理器,所以拥有4个LA664核心,支持128位向量处理扩展指令(LSX)和256位高级向量处理扩展指令(LASX)。另外,3A6000支持同步多线程技术,也就是超线程技术。测试数据显示,3A6000的SPEC性能达到了英特尔10代酷睿4核处理器的水准。
龙芯还推出了服务器CPU芯片3C6000和3D6000,以及具有较高性价比的桌面级CPU芯片2K3000,可用于上网本、工控、迷你主机等。
龙芯也在研发GPU,于2023年底推出了9A1000,对标AMD 的RX 550显卡,计划在2024年第三季度流片。9A1000支持科学计算加速和AI加速。
以华为和龙芯为代表的中国本土厂商不断发力,正在将国产GPU和CPU推向新的高度,目前来看,这些产品可以替换英伟达和英特尔的中国特供版芯片。
不过,要想跟上国际大厂的最先进HPC芯片,中国本土企业还有较长的路要走,攻克其中的技术壁垒依然很难。开发高性能GPU和CPU是一项系统工程,包含硬件架构、算法、软件生态等多个组成部分,缺一不可。
另外,HPC系统设计也很复杂,芯片只是其中的一个重要组成部分,复杂系统不是简单的处理器堆砌,如果体系结构设计、高速互联网络、并行文件系统、存储列阵等不过关,即使堆再多的CPU,整个系统性能也无法提高。
04结语
从目前的发展情况来看,未来,美国和中国大陆的HPC芯片产业链综合实力都将增强,美国的IC设计能力依然强大,同时,其制造、封测能力不断提升,同时,中国大陆的IC设计和制造竞争力也会持续提升,并加快追赶传统大厂的脚步。
目前来看,美国发展先进芯片制造和封测具有更多优势,毕竟它们在获得先进半导体设备,以及在本土建先进制程晶圆厂方面更具话语权和掌控力。中国大陆在建先进制程晶圆产线方面,困难较多。在这种情况下,发展先进封装技术和产线就显得更加重要。
近几年,中国投资先进封装技术的力度越来越大。由于小芯片和异构集成已经成为充分利用较为成熟制程节点的重要手段,许多公司正在进入FOWLP或FOPLP等扇出型封装业务,由于能够实现无基板(no-substrate)解决方案,扇出技术广受欢迎。同时,CoWoS和3D封装技术也成为重点开发项目。总体来看,先进封装已成为中国本土相关企业提升未来市场竞争力的战略手段。