人工智能时代,随着AI应用的普及,AI领域迫切需要性能更强、功耗更低、成本更低的芯片。
这其中,以深度学习为代表的AI算法更需要频繁地进行数据存取,低功耗和高性能之间的矛盾一直是端侧AI芯片落地的难题。
存算一体芯片市场为何被看好
存算一体技术被视为人工智能创新的核心。存内计算突破了传统冯诺依曼瓶颈,实现了存储单元与逻辑单元的融合,是实现智能计算的主要技术路线之一。
它将存储和计算有机结合,直接利用存储单元进行计算,极大地消除了数据搬移带来的开销,解决了传统芯片在运行人工智能算法上的“存储墙”与“功耗墙”问题,可以数十倍甚至百倍地提高人工智能运算效率,降低成本。
当前的存内计算技术主要面临着硬件资源复用、存内计算单元设计和模拟运算实现等关键挑战亟待解决。
国内外存内计算赛道火热
目前,全球存内计算有不少玩家。除了学术界,产业界也越来越多的玩家布局该技术。
IBM基于其独特的相变存内计算已经有了数年的技术积累,台积电正大力推进基于ReRAM的存内计算方案;英特尔、博世、美光、Lam Research、应用材料、微软、亚马逊、软银则投资了基于NOR Flash的存内计算芯片。
5月Myhtic C轮融资了7000万美元,迄今为止已共计筹集了1.65亿美元;6月10日,知存科技宣布完成亿元A3轮融资,产品线扩充及新的产品量产,加上此前的两轮融资,截至目前,知存科技已完成累计近3亿元的A轮系列融资。
6月25日九天睿芯获亿元级A轮融资,用于新产品研发和人员扩充的工作;7月2日,杭州智芯科完成近亿元的天使轮融资,用于继续搭建团队,启动ACIM下一阶段技术研发与市场拓展。
8月24日,后摩智能宣布完成3亿元人民币Pre-A轮融资,将用于加速芯片产品技术研发、团队拓展,早期市场布局及商业落地;8月24日,苹芯科技完成近千万美元Pre-A轮融资,据悉,本轮融资将主要用于芯片研发相关工作。
这些存算一体芯片公司有的处于团队搭建阶段,有的是正在芯片研发阶段,还有的已经到了产品线扩充和量产阶段。
前几年这个市场国内也就仅有3-4家崭露头角的企业,但现在存算一体这个赛道显然已经开始变得热闹起来了。
哪类存储做存内计算最好
目前能做存内计算的存储器并不多,除了FLASH,还有忆阻器、相变存储器、铁电存储器、自旋存储器、SRAM等,但各有各的优缺点。
比如,IBM在相变存储(PCRAM)里实现神经网络计算的功能,利用新型存储器件的模拟计算功能来实现神经网络的计算。
加州大学圣芭芭拉分校谢源教授在新型存储器件ReRAM(阻变存储)里面做计算的功能,让存储器件做神经网络的计算,称之为PRIME架构。
有些工厂把目光投向了NOR Flash,综合来看,NOR FLASH是目前最适合产业化的方向,众多巨头投资的美国初创公司Mythic采用的也正是NOR FLASH。NOR FLASH的优势不仅体现在功耗和成熟度等方面,高精度也是很大的优势。
由于在很多AI推理运算中,90%以上的运算资源都消耗在数据搬运的过程。芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。
所以有人说,存算一体化是下一代AI芯片的关键。
存内计算技术的关键挑战
存内计算虽然可以突破传统冯诺依曼架构的瓶颈,但是仍受到几个关键问题的制约。
①硬件资源的复用问题。传统冯诺依曼架构分立了存储单元和逻辑单元,并根据距离逻辑单元的远近,将存储单元划分为硬盘、内存、缓存等多级存储模式。这使得有限的逻辑单元可以调用大量的存储信息,实现了逻辑单元的复用,从而降低了片上资源的开销。
②存算一体化单元的设计问题。存内运算对存算一体化单元的性能要求十分苛刻。在开销上,存算一体化单元的硬件开销应该控制在一定范围内,至少要明显低于分立的存储单元和逻辑单元的开销总和。
③模拟量运算的实现问题。人工智能算法的运算涉及批量的准模拟量运算。例如,算法对权重的变化范围和精度要求较为苛刻,尤其是涉及网络的训练过程,权重精度的要求将超过6bits。然而,在硬件实现过程中,数字量的精准运算开销较大。
结尾:
人工智能的硬件化加速方法朝着多元化的方向发展,各种类型的加速方法的研究同步推进,各具特色且难以相互替代。
目前国内外在存算一体方面都处于起步阶段,存算一体正处于学术界向工业界迁移的关键时期,所以这可能是我们发展国产芯片的另一大重要方向。
作者 | 方文
部分内容来源于:
中国信息通信研究院CAICT:存内计算技术发展趋势分析 ;
沉寂近30年后火了!存内计算如何打破AI算力瓶颈?;
半导体行业观察:存内计算能否成为下一代AI芯片的关键;
EEWORLD:存内计算:让AI进入高速路;
半导体观察:存内计算,要爆发了?;
有思想的talk君:王绍迪:存算一体为什么是AI时代主流计算架构?