ChatGPT引发全球开启 AI大模型军备赛,受此影响,AI算力市场增势显著,数据中心扩容和升级在即。其中,光模块作为数据中心设备互联的关键载体,需求量随之增长,与此同时,降低功耗、成本,并提升能效仍然是核心诉求。
AI驱动下,数据中心光模块量价齐升
光模块作为光纤通信的核心组成部分,主要用于实现光信号传输过程中光电转换和电光转换功能。据数据中心内部流量、带宽等推算,近年来,光模块速率约每三年左右提高一倍。当前,200G、400光模块在数据中心大规模部署,并且,800G光模块也正在成为全新需求,用在全球领先的超大规模数据中心、人工智能算力中心等;800G的下一代产品1.6T光模块,也有望在2025年后推出。
对于通用服务器和AI服务器来说,所用光模块有什么区别?业内进行过相关测算:一台传统服务器约需要配置 4-6 个光模块,一台AI服务器则需要8-10 个光模块。而且,算力需求越大,越需要更高速率的光模块,比如800G。假设投入100亿搭建一个传统数据中心,光模块约需要5-6 亿;同样投入100亿搭建AI智算中心,光模块可能接近10亿。这意味着AI驱动下,数据中心光模块将呈现出量价齐升的态势。
光模块必备的DSP,被巨头裹挟
光模块用的电芯片包括激光驱动、TIA、CDR和DSP等。LightCounting预测,从2022年到2027年,光模块电芯片市场的CAGR增长率将为18%,市场总额从当前的24亿美元增长到53亿美元,主要用于以太网和DWDM用光器件。
在光模块中,DSP芯片主要用于处理调节衰减光信号,是高速光模块中最核心的电芯片。当光传输速率达到50Gb/s以上,光纤偏振模色散影响加剧,严重影响链路有效传播距离与信号质量,因此业界最常用的方法是通过DSP对抗与补偿,来降低失真造成的系统误码率。业界一度认为在200G以上光模块中,DSP基本属于必备器件。
不过,DSP虽然具有很强的信号恢复能力,但不足之处就是成本和功耗较高、且延迟较大。成本方面,DSP几乎成为光模块BOM成本占比最高的电信号处理单元。有分析显示:约在10年前,DSP刚用于光模块时,工艺节点是65nm,设计成本2400万美元;到2020年7nm产品推出时,设计成本已高达2.5亿美元左右;预计5nm节点时,芯片设计成本将达到4.5亿美元。
高额投入下,市场份额较小的厂商逐渐退出竞争。光模块DSP市场头部效应越来越明显,国际上有inphi(已被Marvell收购)、Broadcom,国内有华为海思,几乎没有其他国内玩家参与,基本成为寡头垄断的市场。
功耗方面,DSP由于引入了DAC/ADC与算法,功耗高于传统基于模拟技术的CDR芯片。16nm DSP解决方案的400G OSFP/QSFP-DD的设计功耗在12W左右,而DSP降低功耗的方法比较有限,主要依靠流片工艺的提升,如果从16nm升级到7nm,约能实现65%的功耗降低。
不论对于光模块本身,还是交换机前面板的热设计,DSP的功耗问题越来越成为一大挑战,随着光模块速率的提升,数据中心迫切需要引入更先进工艺节点的DSP,但这带来了成本和功耗的权衡问题。
“去DSP”趋势显著
AI高算力背景催生低功耗、低延时光模块需求,LPO(Linear-drive Pluggable Optics) 线性直驱与 CPO(Co-packaged Optics)光电共封装方案,是业界目前主要探讨的两种技术路线,这两种方案都不再依赖DSP。
LPO线性直驱方案
LPO 被认为深度契合了AI短距互联、低功耗、低延时的需求,且技术更新迭代相对较小,有望成为800G 时代的重要补充方案。据业内公开资料,相比传统方案,LPO去掉DSP芯片后,整体光模块成本至少下降15%。
也有业内人士认为,LPO的最大优势不是降成本,而是降功耗。在现有光模块架构中,它能够实现50%左右的降功耗效果,对相关厂商吸引力很大。以400G光模块为例,所用7nm DSP功耗约为4W,占模块整体功耗的50%。LPO通过将DSP功能集成到交换芯片中, 只留下driver和TIA,并分别集成CTLE和Equalization功能,用于对高速信号进行一定程度的补偿。相较DSP方案,LPO可大幅减少系统功耗和时延,保证传输性能的同时降低成本,并保持可插拔特性便于后续维护。
LPO代表厂商主要有Macom、Semtech、美信(已被ADI收购),博通也在跟进这一方向。前三家厂商在电芯片领域有一定优势,都在大力推动LPO线性直驱驱动和TIA芯片。MACOM最新推出的800G线性驱动方案,相较于传统方案,可使系统功耗降低70%、整体延迟减少75%。
CPO光电共封装方案
CPO方案将光学器件(如激光器、调制器、光接收器等)封装在芯片级别,直接与芯片内的电路相集成,借助光互连以提高通信系统的性能和功率效率。共封装光学器件的一项关键创新是将光学器件移动到离交换芯片裸片足够近的位置,以便移除额外的DSP。
借助CPO方案,网络交换机系统的光接口从交换机外壳前端的可插拔模块转变为与交换机芯片组装在同一封装中的光模块。
基于这种封装模式,光学元件直接嵌入到芯片中,内部电路距离更近,减小了电信号的延迟和失真,提高了通信系统性能,减少了芯片与光模块之间的连接器数量,减小了光模块尺寸,提高光学和电子之间的互联可靠性。并且,CPO可以减少能量转换的步骤,从而降低功耗,与传统光模块相比,CPO在相同数据传输速率下可以减少约50%的功耗。
在光电共封装领域,英特尔是资深的玩家之一。此外,还有博通、Marvell、思科等。
综上,CPO主要技术路径为硅光集成加外置光源,依然存在可靠性较低、维护较难的问题,成为主流应用还有诸多因素要克服;LPO作为一项新技术,根据预测可望在2024年底首次实现部署;在未来一段时间内,传统的可插拔光模块仍将是首选,7nm向5nm DSP的演进在加快,以满足越来越严苛的功耗需求。
写在最后
大模型、大数据、大算力日益成为AIGC应用的核心,其中,算力作为重要的基础设施,正在面临全面升级的需求。除了核心GPU处理器,通信因素也会成为短板,只要一条链路出现网络阻塞,就会产生数据延迟。因此,AI服务器对于底层数据传输速率、延时要求等非常苛刻,进而对高速率的光模块产生大量需求。
DSP作为光模块核心器件,如今,正在面临新技术路径的冲击和挑战。特别是今年以来,光模块“去DSP”趋势显著。这是光模块领域的重要信号,或许会改写未来的竞争格局,并有望引领光模块、光芯片走向新的技术路径。