一年前,笔者针对武汉华为光工厂项目(二期)正式封顶的消息写了一篇关于海思造芯的文章《武汉华为光芯片工厂封顶,海思造芯第一枪?》,那里面也聊到了光子芯片的组成、工作原理,以及华为在光子芯片领域的布局和野心。
那今天为什么又要再聊光子芯片这个话题呢?一方面光子芯片,也就是我们常说的硅光芯片确实是实现突破摩尔定律限制的一项技术,规模型发展是大势所趋;另一方面,前年写的这篇文章里的光子芯片主要指的是光通信芯片,和今天要讲的光子计算芯片至少是不同应用领域的两件事儿,所以有必要再单独拉出来谈一谈。
接触光子计算这个概念其实是在2019年,当时日本电信电话株式会社(NTT)表示要在处理器中引入光网络技术,已经开发出了超小型光电变换元件,并在开发高性能、低耗电的光电融合型信息处理芯片。届时,该芯片将应用于异构计算系统,节能、高通量数据处理以及超低延迟检测、模式匹配处理等领域。
出于对光子芯片的好奇,笔者开始翻阅相关的信息,看到了诸如“人工神经网络的训练可以直接在光子芯片上进行”的理论,并关注到了从MIT 团队诞生出的两家初创公司 Lightelligence 和 LightMatter。
图 | 世界第一款光子芯片原型板卡
从2019年开始,除了理论验证,市场上开始出现一些原型产品,比如Lightelligence就曾在2019年4月对外宣布开发出了世界第一款光子芯片原型板卡,在这个原型产品上成功用光子芯片运行了Google Tensorflow自带的卷积神经网络模型来处理MNIST数据集。Lightmatter也在2021年秋季推出了搭载光子计算芯片的PCIe卡,这是Lightmatter专为数据中心AI推理工作负载而设计的,也是其首款商业化的产品。
也是在这段时间内,华为公开了一份名为“光计算芯片、系统及数据处理技术”的发明专利,申请日期是2019年8月,专利公开号为CN112306145A。接着在2021年华为全球分析师大会上,华为董事、战略研究院院长徐文伟表示,“到2030年,算力需求将增加100倍,如何打造超级算力将是一个巨大的挑战,未来模拟计算、光子计算面临巨大的应用场景,所以目前华为也在研究模拟计算与光子计算。”
初创企业在前面闯,行业巨头带节奏,可见光子计算才是实现超级算力的归途。这更加激起了笔者的好奇心,光子计算到底是怎么实现的?目前技术演进到了哪一步?生态落地有何困难?恰逢一系列问题涌上心头之时,Lightelligence的市场人员找到我,并告知要在2021年12月举办一场关于“最新光子计算处理器”的发布会,这下有机会深入了解一下Lightelligence和它的光子计算了。
一篇顶级杂志的封面论文开创了光子AI计算领域
Lightelligence中文名为曦智科技,是一位89年的杭州小伙在MIT(麻省理工学院)博士毕业后创立的,这个小伙就是曦智科技创始人兼CEO的沈亦晨。
图 | 曦智科技创始人兼CEO沈亦晨博士
关于为何会选择光子计算作为创业方向,沈亦晨表示,“光子AI计算这个技术是我在MIT主要的研究方向,2016年我所在的研究团队打造了首个光学计算系统,2017年就以封面文章的形式发表在了顶级期刊Nature Photonics杂志上,国际著名光学科学家、斯坦福大学终身正教授David Miller, 曾评价称这一系列的研究成果极大地推动了集成光学在未来取代传统电子计算芯片的发展。于是一篇论文在全球范围内启发了许多人投入到光子 AI 芯片的开发中,可以说是开创了光子AI计算领域,吸引了近二十家初创公司相继成立,不少大公司也都相继进入这个方向,而曦智科技就是其中的一员。”
曦智科技目前在波士顿、上海、杭州、南京等地设有办公室及实验室,全球员工近200人,核心团队中有超过10位MIT的博士(主要背景是硅光和AI两个方向),业界非常有经验的专家(比如带数字、模拟、封装的团队的Maurice Steinman),以及顶级IT公司出来的高管(带领软件和算法团队)。
突破摩尔定律限制,光子计算芯片大有可为
2012年以后,神经网络的大小和计算模型的大小出现了爆炸式的增长,平均每3-4个月,计算模型的大小就会翻一倍。所以,今天最大的神经网络的模型大概是2012年的15-30万倍左右,并且还在持续增长,但是有明显受制于算力底层限制的趋势,换言之,底层算力制约了人工智能的进一步发展。
那么,算力为什么会在发展上难以跟上模型大小的速度呢?总结下来有三大主要瓶颈:算力、数据传输和存储。算力瓶颈主要来源于两方面:
一. 摩尔定律的限制。在过去近50年里,晶体管的密度可以每18-20个月翻一倍,但从物理的角度来讲,一个原子的大小就有接近0.3个纳米,当半导体制程达到3纳米后,已经非常接近物理极限,所以要复刻过去的每18-20个月翻一倍几乎没有可能。
二. 功耗和发热。2015年以后,随着晶体管越来越小,晶体管上的隧穿现象越来越严重,所以即使能把晶体管做得更小,单个晶体管在进行运算时的功耗也没办法进一步降低,片上的热无法更有效散发出去,限制了算力的提高。
而算力瓶颈直接决定了单位面积电芯片上能做的计算密度,对业界来说,进一步提高算力的唯一办法就是进一步扩大电芯片的面积。面对该想法,美国一家公司做了一颗像餐盘一样大的芯片,面积是英伟达芯片的70-80倍,但功耗是英伟达芯片的200倍。这表明随着芯片面积越做越大,它的能耗比并不是随面积正比例提升的。这是因为随着面积的增大,需要更长的铜导线在不同芯片、不同点之间传递数据,但是铜导线的发热量是依据长度正比例增加的。所以,随着芯片面积越来越大,在数据传输上的功耗就会显著增长,这也从本质上制约了用一块更大的电芯片去完成算力突破的想法。
类似的,把多个芯片通过一些电的互联后去协同做计算,由于片间互联带宽非常有限,加上铜导线功耗无法绕开,效果也是差强人意。通常,通过电来互联100个芯片或者板卡后,它的算力可能只比单个板卡提高10倍左右,这是电芯片难以破除的困境。
于是,光子芯片被认为是最适合解决这些困境的底层技术。首先,在数据搬运上面,光已经在光通信领域充分证明它的优势;其次,现在的大数据AI大多是在做线性运算,而恰好光的矩阵乘法并行能力非常强,延时远远低于电芯片,并且光在传播的时候本身不会发热;最重要的是,这种光子计算系统已经被曦智科技这样的团队搭建出来,并经过了实际验证,不是纯理论的东西。
历经四年,终将科研成果转化为光子计算系统“PACE”
从2017年至今,曦智科技团队历时四年多,将光子AI计算从理论的科研成果,转化成了能跑卷积神经网络模型处理MNIST数据集的光子芯片原型板卡,再到今天能跑AI和深度学习以外应用案例的光子计算系统“PACE”的诞生,把最早4×4的乘法器,提升到了把上万个光器件集成在一块芯片上面,单颗光芯片上的器件集成度提高了3个数量级,系统时钟达1GHz,运行特定循环神经网络速度可达目前高端GPU的数百倍,这是光子计算领域一个长足的进步。
图 | 曦智科技光子处理器PACE
沈亦晨在介绍“光子计算”技术时,将其分为三个部分:通过光来做矩阵的乘积累加运算oMAC、片上光网络oNOC和片间光网络oNET。
oMAC就是通过光来做矩阵的乘积累加运算,它是一种模拟计算,通过光模拟信号代替传统电子进行数据处理,数据可以加载在光的强度或者相位上面,通过在波导里的传播相互干涉,同时进行运算。
oNOC是片上的光网络,主要通过用波导代替铜导线的方式,在片上进行数据传输,包括实现片与片之间的光通信,以及大芯片上光的总线通信,在光芯片上构建一个固定通信网络拓扑,通过光相连,实现基于片上光网络的数据交互,然后采用一些波分复用的方式来传播数据。它的优势主要是带宽高、功耗小、延时低和通用性强(通用性体现在可以将不同类型的电子芯片和它结合,为访问存储芯片或者在不同的计算芯片之间提供一个更高速、更低功耗互联的方式)。
片间光网络oNET就是把片上的东西进一步拓展到多个板卡和更多的服务器之间,通过直接用光纤的方式把芯片和芯片直接互联起来,类似以一种光方式做芯片之间数据的传输。
图 | 全球第一个示范出光子优势的计算系统PACE
沈亦晨表示,“PACE是全球仅有的,第一个示范出光子优势的计算系统,也是已知全球集成度最高的光子芯片,能够展示光子计算在人工智能和深度学习以外的应用案例。PACE如果和英伟达的GPU 3080跑同一个循环神经网络算法,花的时间可以做到GPU的1%以内。”
从组成结构的角度,PACE由两部分组成:光芯片和电芯片,两者通过3D封装技术倒装堆叠在一起。电芯片上主要做数据的存储和数模混合的调度,光芯片上主要做数据的计算。
据悉,PACE能够解决伊辛问题(Ising)和最大割/最小割问题(Max-cut/Min-cut)等现在全球最难以解决或者难以高效解决的数学问题——NP-Complete Problem,中文译为多项式复杂程度非确定性问题,涉及比如生物信息里蛋白质结构的预测、物流交通调度、芯片设计、材料研发等。
硅光芯片也是CMOS工艺,生态无需重新独立培养
以“PACE”为例,65/45纳米的CMOS工艺线就可以满足现在光计算芯片所有的要求。硅光芯片未来的技术迭代也不会对制程有特别的要求,更多是从其他方面进行技术迭代,比如主频、波长数量还有不同的模式。
为何要做这段解释?一方面可以表明光子芯片的工艺制程要求不高,另一方面也让我们了解到硅光芯片其实是CMOS工艺,在电学、热学,包括仿真上都有相当成熟的软可以件直接使用,进行光电混合设计。唯一的不同就是对于光来说,在封装方案里需要有一个接口,把光源导到光芯片上去,或者把激光器封装到整个板卡里面,这部分可能是创新的地方。
图 | 光电结合的信号处理示意
对于生态的兼容性,沈亦晨表示,“硅光芯片作为一种底层的硬件支持,采用的是光电混合结构,和软件相关的都是数字芯片。所有的指令、编译、软件,首先会加载到数字电芯片上面,数字电芯片会把这些指令和交互点做一个切分和分解,所以只需要在编译器和底层驱动上添加一些新的功能。比如说要做矩阵乘法的时候,数字芯片会发出一个指令让光芯片去做矩阵乘法。但是,绝大部分的指令其实和现有指令比较接近,比如绝大部分的非线性指令、一些数据的调度指令,都是基于现有数字电芯片去做的。所以,从软件和生态适配的角度来讲,本质上与现有生态是一样的,无非就是换了几个核心功能。以电动车为例,电动车的发动机和能源系统用的是电池,汽油车用的是汽油,但不代表客户开车的时候需要重新考一遍驾照。我们的光电芯片也可以这么理解,不影响客户或者用户的软件系统,用户还是去和数字电芯片做交互。”
“不过,对于光子芯片这个大生态来讲,还是需要更多时间去培养,首先要往现有生态上去靠,在软件方面兼容现有的生态,和一线晶圆厂、封装厂建立战略合作,联合友商把供应链慢慢做到成熟。针对市场侧,曦智科技会先切入大数据的应用场景,包括云计算、智能驾驶、金融上的量化交易、生物药物研发等,目前我们已经和一些全球顶级云服务供应商、主要金融机构等有深度的合作。” 沈亦晨补充道。
写在最后
“明年我们会推出更通用化的产品,当它去跑像Transformer这样模型的时候,并不能预期它会像PACE这样有上百倍的优势。但是,尤其是基于大模型,若将光的互联和光的计算一起加上去,还是能够跑出3-5倍的算力优势。对于第一代产品来说,这样就能够足够打到市场里面去。”这是曦智科技的短期布局和规划。
在被问到这几年赛道中逐步涌现了十几家光子计算的初创公司,国内的大公司也慢慢开始布局光计算时,沈亦晨自信地回答道,“这说明我们这个行业越来越受到大家的认可,有越来越多的人愿意参与进来,这对生态建设是件好事。我们团队的起步是所有公司里最早的,光计算不像数字电路,用一个相当成熟的设计流程完成设计,一年、两年之内就有可能超过所有其他的数字芯片。光芯片需要相当长的研发周期,从器件的设计到封装的方式,到最后软硬一体化的优化,都是需要经过时间积累的。任何一家公司,哪怕是有几百亿、几千亿的公司,要从现在开始做出像PACE这样一个产品,也会需要至少三年时间。除了先发优势外,团队也是我们的核心竞争力。我们现在有最强的、最完整的做光电混合计算的团队,集聚从硅光到数字,到模拟,到软件的各路人才,是一个已经磨合了四年的团队,这是我们最大的财富。”