随着ChatGPT、AIGC、Sora等人工智能技术的兴起,全球范围内对AI的讨论热度不断攀升,大模型正迈向多模态化的新纪元。但在这一转型过程中,人们往往忽略了传统数据中心向智算中心转变时,对综合布线系统的深远影响。
正如大脑的智能源自于神经元间的丰富连接,数据中心作为现代社会的"大脑",其智能化同样依赖于快速、高效的"连接"能力。因此,连接技术的基础性作用不容忽视。
根据Dell’Oro 2022年6月的报告,以太网的发展趋势指向了400G、800G和1.6T的速率。这表明,现有的100G及以下速率的以太网连接技术,以及数据中心内部的连接方式,正在经历向更高速的400G、800G和1.6T技术的快速迭代。
此外,行业内有一种说法,“在高性能计算领域,算力的竞争归根结底是能耗效率的较量。”作为高能耗行业,数据中心以年为计的电费动辄上亿元,常被称为电老虎。而随着数据中心体量的增加,用电量上升趋势明显。
乌镇智库理事长张晓东今年在某一人工智能大会上表示:“大模型的部署需要海量的高算力芯片,预计2027-2028年,超级智能会到来,届时最大的几个模型将需要1000万张卡,消耗的能量相当于一个中国中小型的省的耗电量,由此带来的巨额成本,会成为行业发展的最大挑战。”
综合以上表述,当前数据中心的连接至少面临量大挑战:1、高性能计算对网络速率的需求在提升,很快就会到达800G和1.6T时代;2、在双碳目标下,数据中心对降低能耗的需求非常强烈。
数据中心光互联方案面临变革
当前,数据中心光互联的方案主要有三种:
第一种是传统的光模块连接方案,其中可插拔的光模块就是光引擎,光纤插在光模块上,通过SerDes通道将信号传送至网络交换芯片。这种方案中采用了DSP芯片对高速信号进行信号处理,来降低误码率,所以在链路性能、灵活性、可维护性和不同厂商间的互操作性方面表现良好,但DSP的功耗较大,以400G光模块为例,当前市场上采用7nm工艺的DSP芯片功耗通常要跑到4W,占整个光模块功耗的50%左右,而光模块的功耗大约占交换机整机功耗的40%以上,所以在低功耗方面表现不佳。此外,由于交换芯片和光引擎是分开布局的,所以在信号延迟表现方面也一般。
第二种是LPO线性驱动可插拔光模块连接方案,顾名思义,该方案采用了线性直驱技术,去除了传统光模块的DSP/CDR芯片,将系统功耗和延时做了优化,同时成本也相应降低,但也正因为做了简化处理,所以在系统误码率和传输距离方面有所牺牲。不过该方案依旧保留了传统光模块方案的可热插拔的特性,所以在后期维护方面存在优势,不至于单个元件损坏,要拆机才能维修。
第三种是CPO共封装光学连接方案,在这种方案中,最大的改动就是将交换芯片和光引擎进行了合封,不再采用可插拔光模块的形式,带来的好处是电信号在光引擎和交换芯片之间的链路缩短了,传输速率会更快,功耗更低,效率更高,且在尺寸方面也会缩小不少。有行业数据显示,采用CPO的方案,相比于光模块的方案,功耗可以降低50%,且能满足高速、高密度互联的传输场景,比如未来的智算中心。
综上,在短期内,传统光模块方案还是市场主流;LPO线性驱动可插拔光模块方案正在有序推进;而CPO方案将在800G和1.6T时代开始量产出货,并有望在3.2T时代占据市场主流。
借助对硅光技术的储备,曦智科技推出CPO方案
当前CPO方案还处于市场早期阶段,中国的企业有机会和国际企业同台竞技。
就在刚过去的2024年世界人工智能大会上,笔者看到曦智科技就展出了首款适用 PCle和 CXL(Compute Express Link)协议的数据中心计算光互连硬件产品 Photowave。
众所周知,曦智科技在光电混合算力领域是曦智科技的主战场,但该市场处于趋势性市场,在落地层面还需要更多的时间,而今天曦智科技展示的光互连产品,则在近几年就可能看到销售成绩,所以在基于类似技术底座的情况下,增加产品品类也是较为正向的战略布局。
根据曦智科技工程师的介绍,Photowave系列产品具有多种产品形态,包括PCIe卡、OCP 3.0 SFF卡和有源光缆等,数据传输速率低于20ns,其中有源光缆的延迟更是低于1ns,整个模块功耗在15W以下。
在配置方面,Photowave系列产品可灵活搭配x16、x8、x4、x2等不同通道数,适用于服务器平台、CXL交换机、存储应用以及xPU之间的互联。据悉,该产品已率先成功实现CXL内存池化的远距离光互连,规模化应用后可极大提升不同计算硬件的工作负载效率,赋能数据中心的架构解耦和资源池化。
图 | 内存扩展盒及与服务器之间的光连接案例展示,来源:曦智科技
在应用方面,除了以上提到的数据中心的高速数据传输以外,还能传输边带信号(在调制过程中,载波信号频率两侧生成的上边带和下边带信号,在无线通信和广播中,边带信号是信息传输的关键部分),同时兼容标准协议,从而帮助数据中心实现更高效、更可靠的可重构解耦架构。
此外,Photowave 系列计算光互连产品可以通过专用板卡和线缆连接服务器主机和内存、算力、存储等各类资源盒,实现资源的按需增减,可大幅提升资源的可伸缩性及利用率,降低资源的拥有成本和智算中心的运营成本。