谈到光,总是能想到明亮与高速。在通信与半导体产业中,有着不少与光有关的元器件。例如宽带中常见的光调制解调器“光猫”,可以利用基带芯片将输入的光信号转换成数字信号;5G信号发射基站中,可以利用相控阵雷达的原理加强电磁波信号的传播范围;光敏电阻可以利用电阻材料对光的敏感性或内光电效应来自发调节电阻;太阳能电池板也能利用硅晶体对光的反应产生电流。光与硅,其实早已紧密的联系在一起。
但深入设备内部,不同芯片之间流淌着的仍旧是载流子(电子与空穴),光仅是完整设备外部的信息传导方式。随着各类AI大模型的发展,AI芯片逐渐遇到发展瓶颈,单芯片性能不再是限制设备或服务器的上限,芯片与芯片之间的信息沟通挡在了发展道路上。但如果是光互联,能推动半导体进一步发展吗?
今年9月,台积电将携手博通、英伟达等大客户共同开发硅光子技术、共同封装光学元件(co-packaged optics,CPO)等新产品,制程技术从45nm延伸到7nm,最快明年下半年开始迎来大单,并在2025年左右达到放量阶段。2022年,国内大厂长电等均已押宝硅光芯片科技;2022年1月,中国电科成功研制国内首款1.6Tb/s硅光互连芯片,刷新了国内此前单片光互连速率和互连密度的最好水平纪录;2023年4月,北京大学超大规模集成光量子计算芯片研制成功,首次实现了片上多光子高维度量子纠缠态的制备与调控;如今,随着台积电携手更多大厂进入赛道,硅光芯片或许已经来到爆发前夜。
突破I/O极限
当摩尔定律走到极限,SoC的性能上限正面临内存墙、功耗墙等物理规则的限制。AI时代,高性能计算行业正在迅速接近电气I/O性能的实际极限,从而形成了“I/O功耗墙”。硅光的传输距离和数据传输速率可以达到铜的6500倍和8倍,因此硅光芯片也被业界视作是“推动计算机光互连甚至是光计算的革命”。
光子集成电路技术(PIC,Photonic Integrated Circuit),其本质是将光学器件与芯片集成在同一块SoC上,电子接口、数字电路和高速模拟混合信号电路与光学元件相互配合,以实现片上互联以及片间互联速度的进一步提升。
硅光芯片产生的目的就是让硅与光深度融合,让芯片可以通过光来传输数据硅光芯片使用激光束替代电子在芯片中传输信号。据全球光电混合计算领军企业曦智科技介绍,硅光芯片的大部分制造工艺可以基于目前成熟的集成电路制造工艺实现。官方资料显示,硅光芯片利用小尺寸高功率的DFB激光芯片实现激光发射,同时基于光学设计仿真实现在自有空间的光耦合,采用共晶焊接、芯片焊接及金丝键合的封装技术进行组装。
那么我们只需要简单的将激光器与芯片进行组合就可以了吗?还没那么简单。硅光芯片的激光器的主要类型有VCSEL、FP、DFB、DML、EML等,不同类型的激光器有不同的工作波长、方式和应用环境。硅光芯片同样可分为单波长组件与多波长光组件。单波长光组件,可借助自由空间透镜耦合将激光汇聚到光纤中;而多波长光组件,就要借助自由空间透镜耦合,4通道的激光准直后通过MUX(多路选择器Multiplexer)实现合波,最终汇聚到同一根光纤中。 此外,硅光芯片还需要TEC(半导体制冷器)和热敏电阻共同实现激光器的温控,底板及基板均采用导热率匹配的材料。组件的光电接口分别采用标准MT连接器和FPC连接。组装阶段则需要利用芯片焊接技术将激光器芯片贴装到衬底上,通过金丝焊接实现芯片的电流驱动。
光子与电子的“碰撞”
2015年,英特尔首次验证硅光电子器件性能超越同类传统光电子器件。彼时英特尔预计到2019年,硅光子技术就能实现重大突破,在每秒峰值速度、能耗、成本方面有了巨大提升。更为关键的是,英特尔的Ponte Vecchio GPU由超过40个芯粒组成,极大的增强了架构设计的灵活性,这也直接开启了全球硅光芯片这一庞大技术领域的大门。
此后,对于硅光芯片的技术攻关主要集中在降低芯片制造成本、实现更精确的温度控制、降低芯片与透镜中的耦合损耗等方面。2023年,400G网络技术成熟,市场应用则更集中在大规模计算服务器的之上,光子矩阵计算、片上光网络以及片间光网络成为新发力点。
图源:曦智科技《大规模光电集成赋能智能算力网络白皮书》
光子矩阵计算(oMAC,Optical Multiply Accumulate)可以作为替代传统电子进行数据处理的关键方式,其本质上是一种模拟计算。外部携带信号的光在进入系统后,会首先进入一组光学调制器,编码形成输入光向量,接着光线会进入可编程光学散射介质区域,这片区域就是计算矩阵,输出的光向量就是矩阵运算后的结果。值得注意的是,光矩阵在计算过程中是被动的,这也意味着计算不会消耗任何外部能量,可有效降低芯片计算的整体能耗。
片上光子网络(oNOC,Optical Network on Chip)则是利用光线实现单个芯片的内部数据传输。据曦智科技数据,晶圆级光电基板上会有光子路由波导,这些波导就是数据通信的关键通路。在芯片制造阶段,传统芯片会堆叠在硅光子芯片上,形成二维阵列。芯片外部的光线输入后,会经由波导传输进入光芯片的调制器上。此时传统芯片(电芯片)的数据会通过光芯片与传统芯片之间的微凸块加载到环形调制器上,调制器可以将1或0的数字信号转换为不同的光线强度差异。调制后的光信号再通过波导传播到其他芯片上,利用相同的方式将光线转换为电数字信号。通过这种方式,工程师可以用数以千计的调制器将大规模芯片阵列连接到一起,并实现高能效、高带宽以及低延时的片内通信方式。
图源:曦智科技白皮书
oNOC系统侧视图及俯视图
除了片内通信,光芯片还能起到“数据巴士”的作用,将单元内部需要传输的数据集中起来,通过光传播介质(如光纤)与其他单元进行数据交互。片间光网络(oNET)可以实现数据中心级别的高带宽、低功耗与低延时光信号传输。混合光互联芯片(SoC)由传统芯片与硅光芯片堆叠而成。电芯片将信号通过不同波长的调制器将信号编码为光信号,不同调制光信号以波分复用的方式独立传输,并通过光纤连接到其他系统上。外部光信号也使用同样方式转换为数字信息并进行计算。通过这种方式,不同芯片、不同服务器系统之间可以传输更多的数据到更远的距离。这也让计算系统架构的设计更加灵活,在AI时代,该技术更是成为进一步提升高算力服务器性能的关键。
硅光芯片正逐步摆脱“桎梏”
据曦智科技《大规模光电集成赋能智能算力网络白皮书》显示,随着数字经济时代的到来,万物感知、万物互联和万物智能对计算的需求呈现爆发性增长和多样化态势。AI的发展势头正盛,为了提高信息捕捉的质量和精度,其模型本身也在不断演进,参数规模与日俱增。有实验表明,在基于以太网互连的GPU AI训练的场景中,当训练数据批量(Batch Size)较小,如果网络延迟和带宽分别从20微秒/50Gbps改变到160微秒/9.4Gbps,GPU性能将下降至原来的1/3。即使增大训练数据批量,也无法隐藏住性能损失。
如何降低芯片功耗?如何绕开摩尔定律?如何进一步降低成本?光芯片成为未来解决这些问题的一种可能路径。
相比于传统的CMOS数字电路,光子矩阵计算最显著的优势在于低延迟。由于计算的过程即为光信号阵列在芯片中传输的过程,计算本身的延迟即可看作光在芯片中传输的时间。一般在1ns以下。但光子计算也同样面临着种种问题,例如光源应如何小型化,以及还要解决模拟传输无法计算浮点数的问题。此外,光芯片企业还面临着其他痛点,例如现有EDA工具对于该种类芯片支持力度还不够,自动化设计流程还不够完善;同传统芯片相比,光芯片工程师还需要掌握更多光学知识,这更加剧了人才缺乏情况;光芯片的规模还不够大,在成本上与传统芯片还有差距等。
尽管有着种种限制,但硅光芯片优异的参数表现还是赢得了大厂的广泛关注。国外有诸如英特尔、思科、诺基亚等传统大厂,国内也有华为海思、仕佳光子和长华光芯等领军企业,曦智科技作为硅光芯片的领头羊同样致力于光芯片的发展。如今台积电携手博通、英伟达等大客户进驻光芯片赛道,这将进一步提升全球硅光芯片的整体投资规模,但也将加大赛道中的竞争烈度。
对于国内的硅光芯片企业来说,台积电的到来是机会,同样是挑战。如今硅光芯片“风华正茂”,尚显年轻,但这个未来的广阔市场已经群雄并起,硅光芯片或许很快将迎来全面爆发。