作者:丰宁
在当前数字化高速发展的时代,数据处理和存储的需求日益增长,传统的计算与存储分离的模式已逐渐难以满足高效、低能耗的需求。
因此,业界迫切需要一种新型的解决方案来应对这一挑战。存算一体便是当下最热门的方案之一。
01、存算一体架构的优势
存算一体技术有助于解决传统冯·诺依曼架构下的“存储墙”和“功耗墙”问题。冯·诺依曼架构要求数据在存储器单元和处理单元之间不断地“读写”,这样数据在两者之间来回传输就会消耗很多的传输功耗。
根据英特尔的研究表明,当半导体工艺达到 7nm 时,数据搬运功耗高达 35pJ/bit,占总功耗的63.7%。数据传输造成的功耗损失越来越严重,限制了芯片发展的速度和效率,形成了“功耗墙”问题。
“存储墙”是指由于存储器的性能跟不上 CPU 的性能,导致 CPU 需要花费大量的时间等待存储器完成读写操作,从而降低了系统的整体性能。“存储墙”成为了数据计算应用的一大障碍。特别是,深度学习加速的最大挑战就是数据在计算单元和存储单元之间频繁的移动。
存算一体的优势便是打破存储墙,消除不必要的数据搬移延迟和功耗,并使用存储单元提升算力,成百上千倍的提高计算效率,降低成本。
存算一体属于非冯·诺伊曼架构,在特定领域可以提供更大算力(1000TOPS以上)和更高能效(超过10-100TOPS/W),明显超越现有ASIC算力芯片。除了用于AI计算外,存算技术也可用于感存算一体芯片和类脑芯片,代表了未来主流的大数据计算芯片架构。
02、存算一体技术分类
目前,存算一体的技术路径尚未形成统一的分类,目前主流的划分方法是依照计算单元与存储单元的距离,将其大致分为近存计算(PNM)、存内处理(PIM)、存内计算(CIM)。
近存计算是一种较为成熟的技术路径。它利用先进的封装技术,将计算逻辑芯片和存储器封装到一起,通过减少内存和处理单元之间的路径,实现高I/O密度,进而实现高内存带宽以及较低的访问开销。近存计算主要通过2.5D、3D堆叠等技术来实现,广泛应用于各类CPU和GPU上。
存内处理则主要侧重于将计算过程尽可能地嵌入到存储器内部。这种实现方式旨在减少处理器访问存储器的频率,因为大部分计算已经在存储器内部完成。这种设计有助于消除冯·诺依曼瓶颈带来的问题,提高数据处理速度和效率。
存内计算同样是将计算和存储合二为一的技术。它有两种主要思路。第一种思路是通过电路革新,让存储器本身就具有计算能力。这通常需要对SRAM或者MRAM等存储器进行改动,以在数据读出的decoder等地方实现计算功能。这种方法的能效比通常较高,但计算精度可能受限。另一种思路是在存储器内部集成额外的计算单元,以支持高精度计算。这种思路主要针对DRAM等主处理器访问开销大的存储器,但DRAM工艺对计算逻辑电路不太友好,因此集成计算单元的挑战较大。
存内计算也就是国内大部分初创公司所说的存算一体。
值得注意的是,不同的公司在这一领域的研发与实践中,各自选择了不同的赛道进行押注。有的公司侧重于优化存储与计算之间的协同效率,力求在大数据处理上实现质的飞跃;而另一些公司则更注重架构的灵活性和扩展性,以适应不断变化的市场需求。
此外,存算一体依托的存储介质也呈现多样化,比如以SRAM、DRAM为代表的易失性存储器、以Flash为代表的非易失性存储器等。综合来看,不同存储介质各有各的优点和短板。
03、各大厂商,各有押注
从存算一体发展历程来看,自2017年起,英伟达、微软、三星等大厂提出了存算一体原型,同年国内存算一体芯片企业开始涌现。大厂们对存算一体架构的需求是实用且落地快,而作为最接近工程落地的技术,近存计算成为大厂们的首选。诸如特斯拉、三星等拥有丰富生态的大厂以及英特尔、IBM等传统芯片大厂都在布局近存计算。
国际主要厂商研究进展
在存算一体的研究路径上,三星选择多个技术路线进行尝试,2021年初,三星发布基于HBM的新型内存,里面集成了AI处理器,该处理器可以实现高达1.2TFLOPS的计算能力,新型HBM-PIM芯片将AI引擎引入每个存储库,从而将处理操作转移到HBM,可以减轻在内存和处理器之间搬运数据的负担。
三星表示新型HBM-PIM芯片,可以提供2倍的系统性能,同时能耗降低了70%以上。2022年1月三星电子又带来新研究成果,该公司在顶级学术期刊Nature上发表了全球首个基于MRAM(磁性随机存储器)的存内计算研究。
据介绍,三星电子的研究团队通过构建新的MRAM阵列结构,用基于28nm CMOS工艺的MRAM阵列芯片运行了手写数字识别和人脸检测等AI算法,准确率分别为98%和93%。SK海力士2022年2月也宣布开发出下一代智能内存芯片技术PIM,SK海力士还开发出了公司首款基于PIM技术的产品- GDDR6-AiM的样本。GDDR6-AiM是将计算功能添加到数据传输速度为16Gbps的GDDR6内存的产品。
与传统DRAM相比,将GDDR6-AiM 与 CPU、GPU 相结合的系统可在特定计算环境中将演算速度提高至最高16倍。GDDR6-AiM有望在机器学习、高性能计算、大数据计算和存储等领域有广泛应用。
随后在2022年10月,SK海力士再次宣布推出基于CXL的存算一体计算存储器解决方案CMS(Computational Memory Solution)。
台积电也在进行存内计算的研究,该公司的研究人员在2021年初的国际固态电路会议(ISSCC 2021)上提出了一种基于数字改良的SRAM设计存内计算方案,能支持更大的神经网络。
2024年1月,台积电携手工研院宣布成功研发出自旋轨道转矩磁性存储器(SOT-MRAM)阵列芯片,标志着在下一代 MRAM 存储器技术领域的重大突破。这一创新产品不仅采用了先进的运算架构,而且其功耗仅为同类技术 STT-MRAM 的 1%。工研院与台积电的合作使得 SOT-MRAM 在工作速度方面达到 10ns,进一步提高了存内运算性能。
英特尔也是 MRAM 技术的主要推动者,该公司采用的是基于 FinFET 技术的 22 nm 制程。2018 年底,英特尔首次公开介绍了其 MRAM 的研究成果,推出了一款基于 22nm FinFET 制程的 STT-MRAM,当时,该公司称,这是首款基于 FinFET 的 MRAM 产品,并表示已经具备该技术产品的量产能力。
国内主要厂商研究进展
国内初创企业则聚焦于无需考虑先进制程技术的存内计算。其中,知存科技、亿铸科技、九天睿芯等初创公司都在押注PIM、CIM等“存”与“算”更亲密的存算一体技术路线。亿铸科技、千芯科技等专注于大模型计算、自动驾驶等AI大算力场景;闪易、新忆科技、苹芯科技、知存科技等则专注于物联网、可穿戴设备、智能家居等边缘小算力场景。
那么目前各家企业的研究和量产情况进展如何呢?各家的技术路线有何差异?存算一体技术未来的整体趋势如何?
云和边缘大算力企业亿铸科技
亿铸科技成立于2020年6月,致力于用存算一体架构设计AI大算力芯片,首次将忆阻器ReRAM和存算一体架构相结合,通过全数字化的芯片设计思路,在当前产业格局的基础上,提供一条更具性价比、更高能效比、更大算力发展空间的AI大算力芯片换道发展新路径。2023年,亿铸科技率先提出“存算一体超异构架构”这一全新的技术发展路径,为中国AI算力芯片的进一步发展增添新动能。目前,亿铸科技点亮了基于忆阻器ReRAM的高精度、低功耗存算一体AI大算力POC芯片,基于传统工艺制程,能效比表现经第三方机构验证,超出传统架构AI芯片平均性能的10倍以上。
千芯科技
千芯科技成立于 2019 年,专注于面向人工智能和科学计算领域的大算力存算一体算力芯片与计算解决方案研发,在2019年率先提出可重构存算一体技术产品架构,在计算吞吐量方面相比传统AI芯片能够提升10-40倍。目前千芯科技可重构存算一体芯片(原型)已在云计算、自动驾驶感知、图像分类、车牌识别等领域试用或落地;其大算力存算一体芯片产品原型也已在国内率先通过互联网大厂内测。
后摩智能
后摩智能成立于2020年,2023年5月后摩智能正式推出存算一体智驾芯片后摩鸿途H30,物理算力达到256TOPS,典型功耗达到35W。根据后摩实验室及MLPerf公开测试结果,在ResNet50性能功耗对比上,采取12nm制程的H30相比同类芯片性能提升超2倍,功耗减少超50%。据后摩智能联合创始人兼研发副总裁陈亮介绍,鸿途H30 以存算一体创新架构实现了六大技术突破,即大算力、全精度、低功耗、车规级、可量产、通用性。鸿途H30 基于 SRAM 存储介质,采用数字存算一体架构,拥有极低的访存功耗和超高的计算密度,在 Int8 数据精度条件下,其 AI 核心IPU 能效比高达 15Tops/W,是传统架构芯片的7 倍以上。同时,后摩智能第二代产品鸿途H50已经在全力研发中,预计将于2024年推出,支持客户2025年的量产车型。
端和边缘小算力企业知存科技
知存科技的方案是重新设计存储器,利用Flash闪存存储单元的物理特性,对存储阵列改造和重新设计外围电路使其能够容纳更多的数据,同时将算子也存储到存储器当中,使得每个单元都能进行模拟运算并且能直接输出运算结果,以达到存算一体的目的。知存科技的存算一体芯片已进入多个可穿戴设备产品,年销量预计达百万。
2020年知存科技推出了存算一体加速器WTM1001,2022年知存科技推出全球首颗大规模量产的存内计算芯片WTM2101,该芯片已被多家国际知名企业用于智能语音、AI健康监测等场景,相比传统芯片,该芯片在算力和功耗上优势显著,赋能行业用户实现端侧AI能力的提升和应用的推广。目前,知存科技自主研发的边缘侧算力芯片WTM-8系列也即将量产,该系列芯片能够提供至少24Tops算力,而功耗仅为市场同类方案的5%,将助力移动设备实现更高性能的图像处理和空间计算。2025 年前后知存科技将推出 WTM-C 系列产品,可以用于边缘服务器等。随着集成规模、工艺等方面的技术推进, 未来几年存内计算产品预计平均每年都有 5~10 倍算力的提升。
九天睿芯
九天睿芯专注于神经拟态感存算一体芯片研发,提供人工智能系统高效低耗运行的最新解决方案,广泛应用于AIoT等对低功耗延时需求强烈的领域,为用户提供面向声音端和视觉端的AI芯片。九天睿芯基于多年在全球领先的视觉领域感存算一体研究学习和实践积累,并和来自世界顶级图像传感器公司的研发合作和战略投资,已设计出可广泛应用于视觉领域的超高能效比(20Tops/W)基于SRAM的感存算一体架构芯片ADA20X。
04、存算一体技术已至大规模应用的前夜
当前AI算力需求的不断增长,存算一体技术已经接近大规模量产的节点,随着技术成熟度的提高以及大规模商用落地,其市场空间有望呈现爆炸式增长。
据QYResearch调研团队最新报告《全球存算一体技术市场报告2023-2029》显示,预计2029年全球存算一体技术市场规模将达到306.3亿美元,未来几年年复合增长率CAGR为154.7%。这一高增长率的背后,是存算一体技术在数据处理、人工智能、物联网等多个领域的广泛应用和深度融合。
随着大数据、云计算和人工智能等技术的快速发展,存算一体技术作为实现高效数据存储和计算的关键技术,其重要性日益凸显。
面对如此巨大的市场空间和发展机遇,我们也需要清醒地认识到存算一体技术面临的挑战和困难。比如,存算一体技术是一门非常复杂的综合性创新,产业还算不上成熟,在产业链方面仍旧存在上游支撑不足,下游应用不匹配的诸多挑战,但诸多的挑战同时也构成了当前存算一体创新未来可构筑的综合性壁垒。
未来,随着技术的不断进步和应用的不断拓展,存算一体技术将在更多领域发挥重要作用,为全球经济发展注入新的动力。同时,这也将对相关产业链产生深远影响,推动整个科技产业的创新和升级。