趋势丨AI时代主流的计算架构，存内计算市场被看好

人工智能时代，随着AI应用的普及，AI领域迫切需要性能更强、功耗更低、成本更低的芯片。

这其中，以深度学习为代表的AI算法更需要频繁地进行数据存取，低功耗和高性能之间的矛盾一直是端侧AI芯片落地的难题。

存算一体芯片市场为何被看好

存算一体技术被视为人工智能创新的核心。存内计算突破了传统冯诺依曼瓶颈，实现了存储单元与逻辑单元的融合，是实现智能计算的主要技术路线之一。

它将存储和计算有机结合，直接利用存储单元进行计算，极大地消除了数据搬移带来的开销，解决了传统芯片在运行人工智能算法上的“存储墙”与“功耗墙”问题，可以数十倍甚至百倍地提高人工智能运算效率，降低成本。

当前的存内计算技术主要面临着硬件资源复用、存内计算单元设计和模拟运算实现等关键挑战亟待解决。

目前，全球存内计算有不少玩家。除了学术界，产业界也越来越多的玩家布局该技术。

IBM基于其独特的相变存内计算已经有了数年的技术积累，台积电正大力推进基于ReRAM的存内计算方案；英特尔、博世、美光、Lam Research、应用材料、微软、亚马逊、软银则投资了基于NOR Flash的存内计算芯片。

5月Myhtic C轮融资了7000万美元，迄今为止已共计筹集了1.65亿美元；6月10日，知存科技宣布完成亿元A3轮融资，产品线扩充及新的产品量产，加上此前的两轮融资，截至目前，知存科技已完成累计近3亿元的A轮系列融资。

6月25日九天睿芯获亿元级A轮融资，用于新产品研发和人员扩充的工作；7月2日，杭州智芯科完成近亿元的天使轮融资，用于继续搭建团队，启动ACIM下一阶段技术研发与市场拓展。

8月24日，后摩智能宣布完成3亿元人民币Pre-A轮融资，将用于加速芯片产品技术研发、团队拓展，早期市场布局及商业落地；8月24日，苹芯科技完成近千万美元Pre-A轮融资，据悉，本轮融资将主要用于芯片研发相关工作。

这些存算一体芯片公司有的处于团队搭建阶段，有的是正在芯片研发阶段，还有的已经到了产品线扩充和量产阶段。

前几年这个市场国内也就仅有3-4家崭露头角的企业，但现在存算一体这个赛道显然已经开始变得热闹起来了。

目前能做存内计算的存储器并不多，除了FLASH，还有忆阻器、相变存储器、铁电存储器、自旋存储器、SRAM等，但各有各的优缺点。

比如，IBM在相变存储（PCRAM）里实现神经网络计算的功能，利用新型存储器件的模拟计算功能来实现神经网络的计算。

加州大学圣芭芭拉分校谢源教授在新型存储器件ReRAM（阻变存储）里面做计算的功能，让存储器件做神经网络的计算，称之为PRIME架构。

有些工厂把目光投向了NOR Flash，综合来看，NOR FLASH是目前最适合产业化的方向，众多巨头投资的美国初创公司Mythic采用的也正是NOR FLASH。NOR FLASH的优势不仅体现在功耗和成熟度等方面，高精度也是很大的优势。

由于在很多AI推理运算中，90%以上的运算资源都消耗在数据搬运的过程。芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。

所以有人说，存算一体化是下一代AI芯片的关键。

存内计算虽然可以突破传统冯诺依曼架构的瓶颈，但是仍受到几个关键问题的制约。

①硬件资源的复用问题。传统冯诺依曼架构分立了存储单元和逻辑单元，并根据距离逻辑单元的远近，将存储单元划分为硬盘、内存、缓存等多级存储模式。这使得有限的逻辑单元可以调用大量的存储信息，实现了逻辑单元的复用，从而降低了片上资源的开销。

②存算一体化单元的设计问题。存内运算对存算一体化单元的性能要求十分苛刻。在开销上，存算一体化单元的硬件开销应该控制在一定范围内，至少要明显低于分立的存储单元和逻辑单元的开销总和。

③模拟量运算的实现问题。人工智能算法的运算涉及批量的准模拟量运算。例如，算法对权重的变化范围和精度要求较为苛刻，尤其是涉及网络的训练过程，权重精度的要求将超过6bits。然而，在硬件实现过程中，数字量的精准运算开销较大。

人工智能的硬件化加速方法朝着多元化的方向发展，各种类型的加速方法的研究同步推进，各具特色且难以相互替代。

目前国内外在存算一体方面都处于起步阶段，存算一体正处于学术界向工业界迁移的关键时期，所以这可能是我们发展国产芯片的另一大重要方向。

作者 | 方文

部分内容来源于：

中国信息通信研究院CAICT：存内计算技术发展趋势分析；

沉寂近30年后火了！存内计算如何打破AI算力瓶颈？；

半导体行业观察：存内计算能否成为下一代AI芯片的关键；

EEWORLD：存内计算：让AI进入高速路；

半导体观察：存内计算，要爆发了？；

有思想的talk君：王绍迪：存算一体为什么是AI时代主流计算架构？