数据中心处理器正在重新架构、定制化和多样化。当超大规模数据中心开发他们自己的芯片时,以前为他们服务的芯片公司应如何应对?定制化是正确的方向吗?
由于Amazon、Google和Meta等超大规模数据中心的推动,数据中心芯片的多样化和定制化趋势日益加剧。
这些担忧是有道理的。
打入超大规模数据中心处理器市场对传统芯片公司和初创公司提出了挑战。这部分是因为超大规模数据中心要求专为其算法和工作负载而定制的特定硬件解决方案。拥有专有软件的超大规模数据中心也具有不公平的竞争优势。
重新架构数据中心
首先,让我们分析一下当前数据中心处理器市场的现状。
根据Yole Intelligence科技与市场分析师Adrien Sanchez的说法,如今有两种主要类型的处理器进入数据中心。“一种是CPU,另一种是加速器。”
在CPU类别中,主要竞争对手是Intel和AMD。新玩家如Ampere和Nvidia也开始出现,一些中国玩家也加入了该行列。但关键是,一些超大规模数据中心如AWS和阿里巴巴已经开发了自己的定制CPU。
另一方面,加速器有几个子类别。它们包括:
- 由Nvidia和AMD主导的GPU/图形加速器。
- 通用图形处理单元(GPGPU)和AI加速器,同样由Nvidia和AMD主导。Yole的Sanchez表示,Intel目前也在为这个子类别开发新产品。这也是许多AI硬件初创公司争相推出产品的领域。几乎所有的超大规模数据中心也都有自己的定制处理器,专门用于加速AI训练与推理。
- 数据处理单元(DPU)/智能网络接口卡(NIC)开始用于加速数据和网络工作负载。Sanchez表示,这个子类别的主要竞争对手包括Broadcom、Marvell、Nvidia(Mellanox产品线)、AMD(既有Xilinx,又有Pesando处理器)和Intel。一些超大规模数据中心如AWS和阿里巴巴也有自己的产品。
Tirias Research的首席分析师Steve Leibson解释说:“数据中心架构已经在发生变化,特别是在加速器的应用上。”
例如,根据Lebson的说法,Microsoft Azure一直将FPGA置于其基础架构的核心,寻求利用其增加的灵活性。他补充说:“AWS多年来一直将FPGA加速作为实验提供给客户。”他还说:“最近,随着AI特别是ChatGPT的出现,Nvidia的GPU已经在加速器竞赛中处于核心地位,Nvidia正投入大量资源进行数据中心架构的开发。”
Leibson认为“安全性”是推动数据中心重新架构的另一个因素。Leibson解释说,Intel和AMD正在推动DPU,Intel称之为基础设施处理单元(IPU),因为它们可以将基础设施任务从服务器CPU中移除。目标是阻止恶意行为者试图访问关键数据。DPU/IPU和智能NIC位于服务器领域之外。
定制化趋势正在发生吗?
在这种背景下,数据中心处理器的多样化正在迅速展开。像Marvell和Broadcom这样的公司认为,这种变化让芯片行业的老业务模式定制ASIC重新焕发生机。
他们计划推动定制化来帮助超大规模数据中心。他们的战略首先从超大规模数据中心处理器的边缘开始,试图用自己的IP进行渗透。
Marvell最近推出的高速、超高带宽SerDes采用了TSMC的3nm工艺生产,就是一个例子。
像I/O模块、存储器、SerDes和互连这样的IP并不是定制化超大规模数据中心芯片中最引人注目的元素。但是,利用像Marvell这样的公司已经可以获得的IP,使得超大规模数据中心更容易加速其数据中心芯片的定制化。
然而,与Nvidia、AMD和Intel在数据中心更广泛产品组合中取得的更深入进展相比,Marvell在数据中心的进展规模相形见绌。
瓶颈点
Marvell认为“定制化正成为客户业务的核心”。
Marvell的计算与定制集团技术副总裁Mark Kuemerle观察到:“关于这些数据中心客户的有趣事实是,如果他们的系统中出现轻微的瓶颈点,问题会被放大1000倍甚至更多(因为它们部署在超大规模中)。”这样的瓶颈点可能导致NIC卡住。现成的机器学习设备可能无法匹配工作负载或满足灵活性或可编程性的需求。
Kuemerle说:“这些超大规模数据中心真的必须将一切精确调整到他们的工作负载。那么,他们投资建设定制芯片绝对是值得的。”
Kuemerle表示,这些客户还需要解决方案来覆盖他们构建的所有内容,“从基础NIC到视频加速,再到大规模机器学习”。
回到ASIC了吗?
等一下。Marvell的这种方法不是让芯片行业回到了ASIC的黑暗时代吗?
在20世纪90年代,领先的芯片公司渴望设计和提供针对特定应用的定制ASIC设备,同时提供更好的性能。Sony、Toshiba和IBM最初设计的用于Sony Playstation 3的Cell Processor就是一个例子。
但那些ASIC的岁月已经过去了。为特定产品设计ASIC变得越来越难以合理规模。坦率地说,人们开始讨厌ASIC。那么,情况发生了什么变化,数据中心公司真的需要定制芯片吗?
Marvell新成立的计算与定制集团高级副总裁Kevin O'Buckley承认,对ASIC的反感确实出现了。但他坚称,只有当系统公司试图将真正先进的工艺节点应用到他们自己的ASIC时,才产生了这种看法。那对任何人来说都变得过于昂贵。
但如今,当摩尔定律放缓时,寻求更先进的工艺节点不再是潜在ASIC客户的唯一选择。客户可以选择2.5D、3D芯片或芯片组,混合匹配不同的IP、硬件和封装技术。
有鉴于此,O'Buckley认为,“从收入、SAM(serviceable available market)和TAM(total available market)来看,ASIC市场实际上从未如此庞大。”
当然,O'Buckley承认,从投资回报来看,可以承受投资的客户和应用的整合实际上正在缩小。尽管芯片制造商竞标的领域数量减少,项目数量减少,但他强调,“这些单个领域的价值和影响正在爆炸式增长。”
对定制芯片的怀疑仍然存在
Tirias Research的Leibson对主要芯片公司正在忙于定制他们的GPU和CPU以适应特定超大规模数据中心客户的需求持怀疑态度。
Leibson表示:“他们可能会这样做,但我认为这些公司更有可能与超大规模数据中心讨论需求,并尝试提供满足聚合需求的标准设备。”在他看来,定制芯片是为客户量身定制的芯片,正如Intel与Google合作开发Mt. Evans ASIC IPU那样。
对于芯片公司来说,这是否具有商业意义又是另一个问题。毕竟,芯片供应商必须寻找规模大的机会。
Yole Intelligence的技术与市场分析师John Lorenz表示赞同:“在某种程度上,AMD和Intel正在提议更多的硬件定制,例如AMD的MI300系列和Intel的Rialto Bridge系列,客户可能会寻找不同的CPU、GPU和XPU组合,以根据他们的需求定制计算解决方案。”他补充说,“相比之下,Nvidia解决方案的更多灵活性来自CUDA软件,硬件方面较少。尽管如此,我们应该看到Grace和Hopper的一些组合作为某些硬件选项。”
Yole的Lorenz和Tirias Research的Leibson都不确定AMD是否计划将其半定制芯片业务(目前专用于游戏机芯片)扩展到一些不同领域。
然而,一年前,在AMD的财务日上,Lisa Su阐述了她的雄心。“在过去的10年里,我们一直从事定制芯片业务。如果你看看我们在游戏机市场所做的事情,那就是定制芯片,将我们的芯片带给我们客户对市场、系统和软件应用的愿景。我认为,定制芯片的趋势只会继续增长。”
Lisa Su表示,AMD的一些超大规模数据中心客户正在寻求AMD的帮助 为自己的芯片进行差异化。然而,AMD的定制芯片项目的细节尚未公开。
超大规模数据中心定制芯片的需求将继续存在。对于超大规模数据中心来说,定制ASIC是有意义的。然而,如果相关ASIC只成为一次性解决方案,那么像Marvell这样尝试定制策略的芯片公司能否在这样的不确定性趋势中寻找的规模机会就不得而知了。