单芯片集成上万光子器件,成功验证光子计算优越性。
芯东西12月16日报道,今日,光子计算芯片公司曦智科技(Lightelligence)就最新推出的第二代光子计算处理器PACE与芯东西等媒体进行交流。
随着半导体制程微缩逐渐接近物理极限,电子芯片面临的能耗、传输、存储等方面的挑战越来越大,兼具高通量(单通道数据传输>1TB/s)、高能效比(无需电加热过程)、超低延迟(以光速在计算)的硅光技术成为新兴技术方向之一。
据悉,曦智科技PACE在单个光子芯片中集成超过10000个光子器件,运行1GHz系统时钟,算力是上一代处理器的100万倍以上,在运行特定循环神经网络时比目前高端GPU提速超100倍。
曦智科技创立于2017年,是全球光计算赛道融资规模最高的公司,累计融资总额超10亿元。目前曦智科技拥有全球全职员工近200人,其中技术人员占比超80%,70%的芯片设计师拥有10年以上半导体从业经验。
2017年6月,曦智科技创始人、CEO沈亦晨博士作为第一作者和通讯作者的论文发表于国际学术顶刊《自然·光子》封面,正是这一研究开创性地提出了光子AI计算新路径,并吸引了十几家初创公司相继成立。沈亦晨相信,光子芯片“极有可能成为我们这个时代最重要的技术创新之一”。他透露道目前曦智科技团队正全力准备计划于2022年推出的新产品,在产品筹备期间,曦智科技将继续与半导体供应链、云计算、金融、自动驾驶等行业的领导者开展合作,以验证光子计算的可行性和通用性。
在被问及后续规划时,沈亦晨告诉芯东西,作为颠覆性技术,光子计算技术需要经历漫长的商业化过程,曦智科技接下来的规划分为三个阶段:第一阶段从2022年开始,1~3年主要落地于特别能体现光技术优势的应用场景;第二阶段,随着产品在不同场景展现出明确的优势后,将有更大规模的团队做训练;第三阶段,随着硬件和软件体系更加成熟,进一步切入GPU、车载芯片等对算力需求非常大的市场。
01.单芯片集成超10000个光子器件,率先落地云计算等场景
2019年4月,曦智科技推出全球首款光子芯片原型板卡,它通过运行神经网络模型来识别手写数字图像,当时其芯片中大约有100个光子元器件,运行速度约为100kHz,完成矩阵乘法所用时间是当时最先进电子芯片的1%以内。但这还远未实现光子计算的全部潜力,要将光学矩阵的理论优势变为现实,需要大量持续的研发工作,一个关键问题是如何将大量的光子和电子器件集成在一起。
据曦智科技联合创始人、CTO孟怀宇博士分享,一个商用级的光学矩阵引擎可能会包含数以万计的光子器件,曦智科技的解决方案是自研大规模集成硅光芯片和电子芯片,然后使用先进封装工艺将它们堆叠在一起。经过两年研发,曦智科技推出其第二代光子计算处理器——PACE(the Photonic Arithmetic Computing Engine,光子计算引擎)。
这是曦智科技技术路线中的一个重要里程碑,首次验证了光子计算的优越性,也是首次展示了光子计算在人工智能和深度学习之外的应用案例。 沈亦晨认为,光电混合计算的重要技术演进点,是不断增加单个光芯片上的器件集成度。因此过去四年,曦智科技将最早4x4光子矩阵乘法的十几个光器件集成在一个芯片上,提升到此次PACE单芯片集成上万个器件,提高大约3个数量级。
PACE内含目前已知的全球集成度最高的光子芯片,实现了在单个芯片中集成超过10000个光子器件,运行系统时钟达1GHz,单芯片算力是上一代处理器的超100万倍。测试显示,运行特定循环神经网络时,PACE的运算速度可达目前高端GPU的上百倍。
曦智科技也准备开源软件源代码,供感兴趣者用各种硬件去做比较。在落地方面,曦智科技首先切入云计算、智能驾驶、量化交易、生物医药等应用场景,目前已与全球前五大云服务供应商之一、美国前三大商业银行之一有深度合作。
02.采用3D封装堆叠技术,兼具高能效、低时延、高通量
光技术适合用于解决现有电芯片普遍面临的能耗瓶颈、传输瓶颈、存储瓶颈。在数据搬运方面,光已在光通讯领域充分证明了其技术的领先性和优势,目前所有长距离通讯,包括数据中心里服务器与服务器之间的数据,都是通过光纤来代替导线进行的,光进一步进入到芯片中参与运算也成一种趋势。
另一方面,现在大数据越来越大的比例是在做线性运算,而曦智科技发明了一种用光有效、高效地做线性计算的方式,这是其另一个重要优势。当光在非均匀介质中传播和散射时,其形态类似于某种形式的数学线性运算。
曦智科技利用光执行向量矩阵算法(简称matmul),当光进入系统时,它会被一组光学调制器编码以形成输入光矢量,然后它便进入可编程光学散射介质的区域,输入光矢量经过矩阵后,输出光矢量自然就代表了矩阵乘法的结果。
由于矩阵乘法本身是被动的,这个过程中不会消耗任何能量,此外矩阵乘法是在光通过矩阵所需的时间内完成的,仅需几分之一纳秒,最后高能效和低时延性能与输入光信号的频率无关,这就意味着光矩阵可以支持高通量。
总结来说,高能效、低时延、高通量是光学矩阵运算能够超越摩尔定律、继续提升算力的关键。
需强调的是,PACE是一个光电混合计算系统,而非纯光子计算,光芯片更多承接线性计算和数据网络等主要任务,由电芯片发出指令以及与客户交互,这使得PACE能与现有市场软件环境兼容。
PACE包含64x64的光学矩阵,核心部分由一块集成硅光芯片和一块CMOS微电子芯片以3D封装形式倒装堆叠而成,充分展示了光子芯片与传统电子芯片无缝协同的运作方式。其电子芯片包含数字电路和模拟电路。数字电路部分由控制逻辑和SRAM组成,前者负责调节数据流和输入输出,后者用于片上数据存储。
模拟电路部分则是数字逻辑和光子器件之间的桥梁。对于每个光学矩阵乘法,输入向量值首先从片上SRAM中提取,由数模转换器转换为模拟值,然后通过电子芯片和光子芯片之间的微凸点应用于相应的光调制器,光调制器相应地减弱入射光,形成输入光矢量。
整个64x64光学矩阵用类似机制进行编码。接着输入光矢量通过光矩阵传播,产生输出光矢量,并达到一组光电探测器阵列,从而将光强转换为电流信号,最后电信号通过微凸点返回到电子芯片,通过跨阻放大器和数模转换器返回数字域。
PACE上共有数千个微凸点来帮助电子芯片和光子芯片之间的数据传输。除了3D封装的光子和电子芯片外,PACE还使用了光纤阵列连接激光源,整个组件被安装在了一块PCIe卡尺寸的PCB板上,如电源系统输入输出连接器等外围部件也都连接到PCB板上。
值得注意的是,最新发布的PACE芯片,不是为了在通用性上证明跑所有神经网络,更多是要证明光计算优势的上限或潜力。之所以选择循环神经网络,是因为其相对独立地将矩阵优势发挥出来,沈亦晨透露说,明年曦智科技可能会推出一个更通用化的产品。
03.可用于解决NP-complete问题
PACE可用于解决组合问题,通过重复矩阵乘法和巧妙利用受控噪声组成的紧密回环来实现低延迟,生成如伊辛问题(Ising)和最大割/最小割问题(Max-cut/Min-cut)的高质量解决方案。这些困扰了全球数学家近50年的难题,属于多项式复杂程度的非确定性问题(NP-complete),即在多项式时间尺度下无法通过数学方法解决的问题。
相关算法被广泛应用于生物信息、交通调度、电路设计、材料发现等领域。而一旦一个NP-complete问题得到解决,就可以相对容易地将解决方法映射到其他NP-complete问题上。
最大割问题便是一个很好的例子。假设有一组顶点,用边将它们连接起来,形成不规则的图形,如果将定点分成两个互补的子集,那么它们之间会有一些边,两个子集之间边最多的分组方法成为最大割。最大割的另一个等价定义是,两个子集内部边最少的分组方法,曦智科技选择用迭代法来解决最大割问题,解决这个问题需要用到大量的连续矩阵乘法,而低功耗、低时延的光学矩阵非常适合这种计算。
在这个动画中,定点用两种颜色标记,代表两个子集,连接相同颜色定点的边在颜色对应的子集的内部,它们也标有相应的颜色。其目标是最小化彩色边缘的数量。迭代过程从随机颜色分组开始。初始情况下,许多边是彩色的,每次迭代时,顶点的颜色分组都会发生变化,使得着色的边的数量变少,曦智科技有意加入了噪声信号,这个过程会经常往复。最终,颜色分组将收敛到最大割,每次迭代都会执行一次光学矩阵运算。由于光学矩阵的超低时延,PACE的运算速度比高端GPU要快数百倍。
04.从光计算到光互连,曦智科技的三大硬核技术
曦智科技工程副总裁Maurice Steinman是一位拥有超过24次成功流片和产品介绍经验的行业老将,是SoC架构、SoC互联、内存子系统和电源管理方面的专家。他曾先后任职于Digital、康柏、惠普、英特尔等公司,并在AMD担任Senior Fellow和首席架构师,曾主持开发了被誉为AMD芯片基石的用于高通量信息传输的旗舰产品infinity fabric总线。
Maurice Steinman谈道,PACE已成功验证了曦智科技产品路线中的光计算模块,另一重要模块则是光互连。“我们的光互连技术可用于多种传输介质,包括光缆以及在芯片、中介层和晶圆层面集成的波导,并提供高通量、低时延和高能效的数据传输和互连,光计算和光互连技术的结合为面向加速器、服务器和数据中心需求的高性能产品奠定了坚实的基础。”
总体来看,曦智科技的技术主要分成三大部分:oMAC-光学乘积累加运算、oNOC-片上光网络、oNET-片间光网络。
(1)oMAC-光学乘积累加运算:这是一种模拟计算,用光替代传统电子进行数据处理。数据可加载在光的强度或相位上,数据流动的同时进行计算。oMAC执行线性运算也可理解为矩阵-矩阵或矩阵-向量之间的乘法。其实现方式是采用与CMOS兼容的硅光工艺平台,光-电协同设计,结合先进封装技术;采用高速可调、小尺寸电光调制器设计;通过新颖的计算架构-基于MZI结构的相干/非相干方案,来做光与光之间干涉;最后硬件-算法的协同优化。它的优势在于光计算并行能力更强,能效媲美甚至更优于电子芯片,且延迟超低。此外,硅光对工艺制程要求和成本很低,比如一个65nm或45nm的CMOS工艺器件就能满足现在光子计算所有的要求,其制造工艺成本远低于电芯片。
(2)oNOC-片上光网络:通过波导代替铜导线的方式,让数据在光芯片网络中传递,可实现单个电芯片(EIC) 内部的数据传输、封装内部多个电芯片 (EIC) 之间的数据通信。其实现方式是在光芯片上构建一个固定或可灵活调整的通讯网络拓扑,将不同的电芯片与其中单个或多个节点相连,实现基于oNOC的数据交互;采用形式有基于光广播的网络拓扑和基于波分复用的网络拓扑。它的主要优势是高带宽、低能耗、低延迟、距离不敏感。另外,该方法通用性强,可将不同类型的电子芯片与之结合,为芯片间提供高速、低能耗的互连,适用于有高带宽需求的应用场景。
(3)oNET-片间光网络:光芯片起到类似optical BUS的作用,将单元内部需要传输的数据集中起来,通过光传播介质(如光纤)与其他单元进行数据交互。该技术主要用于优化计算单元之间的通信效率。相比传统电互连,光网络的能效比高、光学传播损耗低、带宽高、延迟低,且传输距离不敏感。
其实现方式如图,D-EIC是数据处理单元也是数据传输的终端,A-EIC是模拟电芯片,协同PIC对需要发送或者接受的信号进行处理,实现信号的光-电与电-光转换。发送时,数据由D-EIC→A-EIC(穿过PIC)→PIC→外部;接收时,数据由外部→PIC→A-EIC→D-EIC(穿过PIC)。
05.结语:光子计算芯片的商用序幕拉开
总的来看,曦智科技的新一代PACE处理器利用光的基本特性,进行高效节能的算术计算与数据传输,以此应对传统电子架构面临的数据通信和算力挑战。
光子计算不是靠堆钱就能用最好工艺、成熟设计流程做出来的,它需要付诸相当长的研发努力,从器件设计、封装方式到软硬一体化总体优化都需要时间积累,不是一蹴而就的事情,因而先发优势非常重要,这也是曦智科技的核心竞争力。
沈亦晨相信,任何一家公司,无论资本多么雄厚,如果从现在开始做,要做出PACE这样的产品,至少需要三年的时间。另一方面,从成立至今,曦智科技已经组建了全球最强、最完整的做光电混合计算的团队,从硅光到数字、模拟、软件,这个团队已经充分磨合四年,这也是曦智科技所积累最大的财富。
当然,新技术往往面临很多挑战,需要付出长久的研发努力。如今光子计算这个新兴赛道正越来越受到认可,更多创企及大公司开始参与进来。在生态方面,曦智科技先在软件方面兼容现有生态,后续还将通过合作,推动供应链走向成熟。