特邀作者: 滕正如东南大学 微电子学院
基于 NOR Flash 的存算一体芯片优点出众,我们相信该类芯片有更美好的未来。
近年来,在算力急速增长的推动下,以神经网络为代表的人工智能迎来了新一轮的发展,并迅速在图像视频应用、自然语言处理及其他诸多领域取得了惊人的成就。尤其是边缘计算在终端设备推理的兴起为人工智能提供了大量的计算设备和数据,使得人工智能具有了无限的可能。但是,神经网络对于庞大算力的需求和边缘及终端侧对于低功耗的需求之间难以调和的矛盾,严重阻碍了神经网络的进一步发展和应用,因此低功耗、高能效神经网络加速器成为了众多企业、研究机构的研究重点。
在这样的基础上,存算一体孕育而生。
为什么需要存算一体?
2018 年,美国DARPA“电子复兴计划”明确提出不再依赖摩尔定律的等比例微缩道路,旨在寻求超越传统冯·诺依曼计算架构的创新,利用新材料、新器件特性和集成技术,减少数据处理电路中移动数据的需求,研究新的计算拓扑架构用于数据存储与处理,带来计算性能的显著提高。
与传统的计算单元和存储单元分离的冯诺依曼架构不同,存算一体技术可以把存储单元同时用于计算和存储,这样就可以避免数据和计算结果在计算单元和存储单元之间来回搬运引起的功耗和带宽瓶颈,从而实现功耗的大大降低。
基于NOR Flash的存算一体
而基于 NOR Flash 的存算一体方案正是受到多方关注的一条技术路线。英特尔、博世、美光、Lam Research、应用材料、微软、亚马逊、软银都投资了基于NOR Flash的存内计算芯片。
NOR Flash的起源和技术发展
Nor是Flash一种架构方式。Flash存储技术是在它之前的E2PROM (Electrically Erasable Programmable Read OnlyMemory)基础上发展起来的存储器,它跟E2PROM一样,也是使用电学方法来存储电荷的器件,只是E2PROM是使用两个晶体管来构成,而Flash存储阵列中的存储单元是由一个晶体管组成的。所以Flash存储器在器件集成度、数据容量和功耗低等性能上都比之前的器件有明显的提高。
目前性价比最高的存储器首推闪存,闪存主要有NOR和NAND两种类型。NOR Flash 由英特尔公司于1988年最初推出。为了提高容量/价格比,东芝公司于1989年推出NAND Flash。但相比NOR Flash来说,两种Flash技术各有优、缺点以及各自适用的场合。NOR结构的特点是芯片内执行(XIP, eXecute In Place),这样应用程序可以直接在Flash闪存内运行,不必再把代码读到系统RAM中,节省了时间。NAND结构的特点能提供极高的单元密度,可以达到高存储密度,并且增加写入和擦除的速度。
NOR Flash的原理
浮栅晶体管的横截面
NOR Flash的存储单元是浮栅晶体管,在作为存储使用的时候每个浮栅晶体管可以存储1bit数据。它是在金属-氧化物半导体场效应晶体管(MOSFET)的基础上引入浮置栅极来存储电荷而实现的。一个浮栅晶体管,由P型的衬底和在其上重掺杂的N型源极和漏极、控制栅极、由氧化物包围的多晶硅浮栅组成。浮栅是由绝缘介质层包裹起来的,浮栅和沟道之间的很薄的氧化物层被称为隧道氧化层,两个多晶硅栅之间的氧化物层被称为栅氧化层,一般是氧化物-氮化物-氧化物层组成的多晶桂层间绝缘介质。因此,其上的电荷会轻易地流失,因而浮栅晶体管能够应用于NVM。
浮栅和控制栅可以用来控制源极和漏极之间沟道的形成:当浮栅处于无电荷状态时,浮栅晶体管会如MOSFET—样,当控制栅加高于阈值电压(Threshold Voltage)的电压时,沟道形成,浮栅晶体管处于导通状态,而控制栅上加的电压低于阈值电压时,浮栅晶体管处于截止状态;当浮栅上存储一定量的电子后,由于浮栅的影响,会升高,浮栅晶体管更加难以导通。这样,就可以通过这两种状态来存储数据,分别表示“1”和“0”,并且可以通过在栅极上加一个在两种之间的电压,根据流过的电流来读取存储在浮栅晶体管中的状态。
浮栅上的电子则可以使用沟道热电子注入(Channek Hot Electronic Injection, CHEI)FN隧穿(Fowler-NORdheim Tunneling)两种方式来增加和移除。CHEI通过在栅极加电压使得沟道反型,并在源极和漏极之间加高电压使电子向漏极加速。其中有部分电子在整个过程中侥幸因为发生碰撞而获得了足够越过隧道氧化层势垒的动能并到达浮栅,这样,就使得浮栅中有了多余的电子。而FN隧穿则在控制栅和衬底之间加很高的负电压,使得它们之间形成强电场以降低氧化层的势垒宽度,增加电子隧穿的几率,使得电子从浮栅回到衬底。使用CHEI增加浮栅电子的操作称为“编程”,而使用FN隧穿移除电子的操作称为“擦除”。
可见,浮栅晶体管可以近似等效于一个N沟道MOSFET在栅极连接一个电容,其电学特性就像阈值电压可调的MOSFET,也具有截止(Cut-Off)、 弱反型( Weak-Inversion,亦称Sub-threshold,亚阈值)、线性(Linear, 亦称Triode,三极管,亦称Ohmic,可变电阻)和饱和等工作模式,每种模式具有不同的特征。
NOR Flash阵列结构
NOR Flash中程序和数据可存放在同一芯片上,拥有独立的数据总线和地址总线,能够快速随机读取数据,也允许系统直接从Flash中读取代码执行,而不需要先将代码下载至RAM中再执行;可以单字节或单字编程,但不能单字节擦除,必须以块为单位或对整片执行擦除操作,在对存储器进行重新编程之前需要对块或整片进行预编程和。
NOR Flash 以并行的方式连接存储单元,具有分离的控制线、地址线和数据线、较快的读速度、能够提供片上执行的功能,但写操作和擦除操作的时间较长,且容量低、价格高。因此NOR Flash 多被用于手机、BIOS 芯片以及嵌入式系统中进行代码存储。
NOR Flash如何实现存算一体?
基于NOR Flash的存算一体基本原理是利用存储单元的多值特性,通过器件本征的物理电气行为(例如基尔霍夫定律与欧姆定律)来实现多值MAC 运算。每个存储单元可以看作一个可变电导/电阻,用来存储网络权重,当在每一行施加电流/电压(激励)时,每一列即可得到MAC 运算的电压/电流值。
基于Flash的MAC运算基本原理
我们以基于Flash单元的电压式模拟乘法器为例。模拟乘法器由两个Flash单元构成,这两个Flash管栅极(G)相连并接固定电压,漏极(D)相连接电压VDS,源极(S)的电流相减为输出电流ID。外部输入数据X经过DAC(Digital to Analog Converter,数模转换器)转换为模拟电压VDS,得到的输出电流经过ADC (Analog to Digital Converter,模数转换器)转换为数字信号输出。可以使用两个工作在线性区的Flash管实现模拟乘法。
电压式模拟乘法器结构图
NOR Flash相比其他存算结构的优势
Flash器件于1967年被施敏发明,在MOS管的栅极增加一个浮栅,通过改变浮栅中的电荷达到存储数据的目的。经过50多年的发展,浮栅器件的制造工艺已经非常成熟,成品质量稳定。浮栅单元具有密度大,效率高的特点,适合作为实现存算一体架构的介质。
存算结构特点对比
相比其他存算结构,NOR Flash有两大突出优势。
其一,因为其长期的应用和发展,闪存技术已经非常成熟,NOR Flash 已被大量应用于手机、BIOS 芯片以及嵌入式系统中进行代码存储。美光(Micron) NOR Flash 产品线总监 Richard De Caro 曾表示,在传统的精密电子产 品的生产中,NORFlash的作用举足轻重,涵盖了各个细分市场。根据 Richard De Caro 的估算,每年 NOR Flash 的出货量超过 60 亿颗。NOR Flash成本低于其他存算结构,技术成熟,已有量产芯片出现在市场。
其二,NOR Flash属于非易失性存储器,可以直接存储网络权重,因此不需要片外存储器,减小芯片成本。例如Mythic的产品 MP10304 PCIe并不需要额外的片外存储;同时,非易失性可以保证数据掉电不丢失,从而实现即时开机/关机操作,减小静态功耗,延长待机时间,非常适用于功耗受限的边缘终端设备,例如国内企业知存科技量产的芯片WTM2101专注于可穿戴设备,和现有芯片在AI算力上有数十倍到百倍的提升。
NOR Flash学术研究及产业应用进展
在学术方面,国内外高校都有研究。美国加州大学圣塔芭芭拉分校的研究团队通过修改NOR Flash阵列结构实现了对单个Flashcell的编程擦除操作,并在此基础上构建了一个包含两层全连接层的神经网络,该计算阵列识别一张图片能耗低于20nJ。并且该团队还进一步设计了计算精度为5Bit,大小为400X400的由Flash构成的乘累加单元。北京大学的研究团队提出了针对大尺寸图像卷积的分块计算方式,实现了对大尺寸图像的二维卷积操作。
在产业方面,国内外企业中基于NOR Flash的存算一体都正飞速发展,且有量产芯片出现在市场。目前存算一体技术处于多种存储介质百花齐放的格局,如Flash、SRAM、MRAM等等。如今选择SRAM介质阵营的主要有苹芯科技、后摩智能、九天睿芯;MRAM方面,三星电子于2022完成世界上第一个基于 MRAM的内存计算流片,并发表在《nature》,而Flash阵营的代表玩家则有美国的Mythic,与国内知存科技、合肥恒烁。
国外相关领域的佼佼者是美国公司Mythic,该公司于2012年成立,专注于研发深度学习的神经网络芯片的公司,其推出的新型的芯片和软件,无需通过云端就能在本地设备中实现语音控制、计算机视觉和其他的AI技术。在2019年推出基于Flash 的神经网络处理单元IPU。IPU的性能达到4TPOS/W。Mythic于2020 年 11 月推出业界首款模拟矩阵处理器 (Mythic AMP™)。并于2021年推出 MP10304 PCIe 卡,该卡具有四个 M1076 Mythic 模拟矩阵处理器 (AMP),提供高达 100 TOP 的 AI 性能,且不需要片外存储器,减小芯片成本,并在不到 25W 的功率下支持多达 3.2 亿个权重,用于复杂的 AI 工作负载。Mythic着重在较小的功耗下实现高性能的神经计算。
Mythic MP10304 Quad-Amp PCIE卡
国内企业也在发力基于NOR Flash的存算一体。其中的领先者是知存科技。知存科技公司与科大讯飞合作,于2016年发布了基于Flash的MemCore001芯片,支持智能语言识别、语音降噪等多种智能语音应用。2018年,知存科技即针对智能语音应用场景设计了国际领先的高精度、低功耗Flash存算一体芯片架构,并首次应用MemCore001/MemCore001P系列芯片。并于2022年3月宣布其WTM2101芯片正式量产并推向市场,WTM2101的AI算力高达50Gops,相较于可穿戴设备现有芯片在AI算力上有数十倍到百倍的提升。
知存科技的存算一体模块基于高密度非易失性存储器,8-bit量化的深度学习算法参数量支持高达1.8M个,可同时运行2-3个高性能模型。知存科技着重在可穿戴设备方向,且已于今年实现量产芯片。
国内的另一家企业是来自合肥的恒烁半导体科技公司,其于2019 年底宣布公司第一款CiNOR V1版在武汉新芯65nm NOR Flash制程上已经完成芯片设计并流片,成功验证了CiNOR芯片原理和可行性,并实现了包括手写识别、ECG检测和人脸检测等几项应用。
基于 NOR Flash 的存算一体芯片避免了传统 AI 架构芯片碰到的“存储墙”和“功率墙”瓶颈,显著提高了运算效率,并且大幅降低功耗,同时 NOR Flash 带来制造成本上的竞争优势,成本低于其他存算结构,技术成熟,已有量产芯片出现在市场,且Flash属于非易失性存储器,可以直接存储网络权重,因此不需要片外存储器,减小芯片成本。我们相信该类芯片会有更好的未来。