2024年,大模型技术的迅猛发展成为人工智能领域的核心驱动力,其对硬件算力和存储效率的极致需求,促使存算一体技术在全球范围内迎来前所未有的关注与突破。随着模型参数规模的持续膨胀和应用场景的不断拓展,存算一体技术作为解决数据传输瓶颈、提升计算效率的关键方案,展现出巨大的发展潜力。
在大模型的推动下,存算一体技术在学术界和产业界均取得了显著进展。学术研究聚焦于如何通过存内计算优化大模型的训练与推理效率,从底层存储介质的创新到系统架构的优化,为存算一体技术的未来发展提供了丰富的理论支持。与此同时,产业界则通过技术创新和商业化落地,加速了存算一体技术在端侧、边缘计算和数据中心等领域的广泛应用。从三星与SK海力士推动LPDDR6-PIM技术的标准化,到后摩智能推出端边大模型AI芯片,再到d-Matrix首款基于数字存算的AI芯片出货,这些事件不仅标志着存算一体技术的商业化进程加速,也反映了行业对大模型时代算力需求的积极回应。
随着技术的不断成熟和市场需求的持续增长,存算一体技术正逐渐成为推动人工智能、边缘计算和高性能计算领域发展的关键力量。2024年,存算一体技术在大模型背景下的创新与应用,不仅为智能设备和数据中心的性能提升提供了新的解决方案,也为未来技术发展提供了新方向。
Part1:2024年存算一体行业要事回顾
一、学术界重点研究一览
1、由ISSCC洞察存内计算的学术前沿
ISSCC是集成电路行业年度的顶级会议,作为每年年初的学术盛会,可以一瞥现阶段学术界关注的技术热点和目前实验室/研究机构的技术水平。这里将列举几个存内计算相关的重点工作,希望能从尽可能多的视角观察存内计算技术的应用。
- 11.3 欧洲人工智能的初创公司Axelera AI推出一款基于数字SRAM存内计算(DIMC)的端侧视觉模型推理的SoC。该芯片利用RISC-V CPU、L1 Cache和DIMC单元构建基本的AI core,AI core之间利用NOC互联,并与系统总控、外设控制互联。芯片在12 nm,144 mm2的面积下实现了32 Mb的SRAM-IMC容量,达到了209.6 TOPS的计算吞吐以及5~15 W的典型功耗,在ResNet-50和YoloV5的模型上展现出极高的帧率和极低的功耗。
- 20.1 联发科(MediaTeK)提出了一款Mobile SoC中用于图像超分辨率的处理器,采用数字存内计算单元作为执行卷积的计算单元,芯片采用了一种多个卷积核之间流水处理的架构,在实现任务的灵活分割的同时尽可能最大化复用激活值,提升系统吞吐和能量效率。最终芯片在3 nm下实现了12 TOPS/mm2的算力密度和23.2 TOPS/W的系统能效。
- 30 DSA Section:该Section聚焦在领域专用的处理器架构,其中不乏使用存内计算技术的工作:
* 30.3 & 30.5 分别利用SRAM和eDRAM两种片上的存储器的存内计算做算法问题求解,分别针对SAT问题和Ising问题,利用阵列式存储器本身的阵列特性去模拟NP hard问题的求解;
* 30.6 使用SRAM-CIM作为RSIC-V CPU的向量协处理器,极大提高了计算的通用性。该工作使用数字域的SRAM-CIM替代了原本向量协处理器中的向量寄存器(VRF),直接减少了CPU到VRF之间的数据移动,提高系统能效的同时也提升了芯片的算力密度;
- 34 CIM Section:该部分的工作聚焦在具体的存内计算电路设计,存储器的类型以片上的SRAM和eDRAM为主:
* 34.1 & 34.2 清华大学和台湾清华大学分别从数据编码格式和极致的电路优化两方面入手,致力于更高精度的存内计算技术。清华大学的研究团队提出一种POSIT的编码格式,在传统的浮点数据格式基础上增加额外一级管理位来适应不同的数据分布形式,基于该格式实现的存内计算宏单元以更低的计算能耗达到了更高的计算精度。台湾清华大学的研究人员在16 nm下使用4T的Gain Cell提高存储密度,其核心创新在于极细粒度的整型和浮点型计算的重构,在执行整型计算时,浮点的指数加法电路被重构为整型加法树,而浮点对指电路被重构为整型计算中的稀疏检测电路,极大地提高了重构效率;
* 34.3 & 34.6 东南大学和后摩智能团队以及中科院微电子研究所的团队均采用了数字模拟混合的方式试图在计算精度和计算能效之间做出权衡。东南大学和后摩智能的团队采用了一种“闪电型”比特扩展的存内计算方式,相较于之前的数模混合的分割方案更好地权衡了计算精度和计算能效,使用的模拟多周期累加的方案也更适合累加长度更大的网络部署。微电子所团队的工作使用模拟存内计算+数字存外计算保障计算精度的同时提升计算能效,其采用外积计算数据很好地重构了整型/浮点的数据类型;
2、存内计算相关研究在计算机体系结构领域顶会上持续火热
- 四月,ASPLOS在美国圣地亚哥召开,来自中科院计算所的工作:CIM-MLC: A Multi-level Compilation Stack for Computing-In-Memory Accelerators提出了面向存算多种类存算一体芯片的多层次开源编译框架,作为连接多种类的存算硬件与多种类的算法算子之间的中间层。存内计算作为一种新的硬件架构范式,对其软件编译的讨论十分重要。
- 同样是ASPLOS上,来自北京大学和KAIST的研究人员都基于目前已有商用的DRAM-PIM和传统NPU/GPU的协同工作系统,分别对大语言模型加速的两种技术:Speculative Inference和Batched Inference做架构设计探索,形成两套软硬件协同设计:SpecPIM和NPU-PIM。其中,SpecPIM敏锐地捕捉到了Speculative Inference中大模型和小模型同时推理时算法需求的异质性与GPU+DRAM-PIM的硬件能力异质性相吻合,亟需一套架构-数据流的协同探索以发现推理时最优的软件-硬件配置。而在NPU-PIM中,研究人员发现在服务器端Batch size很大的推理场景时,ffn算子为计算密集型算子,而Attention算子由于每个Batch对应的KV Cache不同,为存储密集型算子。与SpecPIM一样,这种算法需求上的异质性在NPU+DRAM-PIM的系统中同样存在强的协同设计需求,启发了研究人员的软硬件协同设计方法,包含软件上的数据流调度和PIM计算单元的电路优化。
- 六月底,ISCA在阿根廷布宜诺斯艾利斯召开,清华大学和上海交通大学都捕捉到了目前已有的DRAM-PIM芯片中计算Bank间调度受限的问题,利用软硬件协同设计和内存空间管理形成两套解决办法:NDPBridge和UM-PIM。其中,NDPBridge在硬件上设计了一套Bank和Bank之间以及Rank和Rank之间数据包收集和派发的桥接路由单元,软件上提出一套数据传输感知的调度策略,最小化交互的延迟开销。UM-PIM提出了一种具有统一和共享内存空间的DRAM-PIM系统,允许CPU和PIM所需要的两种不同数据排布的页面共存于同一个内存空间中,最小化因PIM本身特性导致的冗余的数据重排拷贝。UM-PIM在硬件层面通过在PIM的DIMM一侧设计硬件接口,实现物理到硬件地址的动态映射,加速数据重新布局过程的同时降低了CPU与PIM之间的通信开销,有效提升系统性能。
- 十一月初,MICRO在美国德克萨斯召开,中科院计算所发表一篇基于芯粒互联的Flash内计算的边缘端大模型推理芯片,该设计在3D-Nand Flash原本的数据读出Cache die上集成计算单元和Ecc纠错,用于大模型推理中的ffn算子的矩阵乘,再通过2.5D封装工艺集成Flash和处理attention算子的NPU,在系统外部外挂DRAM存储推理过程产生的动态KV Cache。该设计利用先进的封装工艺和近Flash的存内计算将大容量NvM提升到更高的层级,颠覆了传统的体系结构中的存储层级,为边缘端大模型的推理提供更大的存储容量和更高效的数据调度方案。
3、存内计算相关算法研究亮相深度学习顶会ICLR
- RPTQ(Reorder-based Post-training Quantization)是后摩智能团队与华中科技大学等合作单位提出的一种全新的量化方法,旨在解决量化Transformer时激活通道之间的数值范围差异问题。相较于以往的研究,RPTQ首次将3位激活引入了LLMs,实现了显著的内存节省,例如在量化OPT-175B模型方面,内存消耗降低了高达80%。RPTQ的关键思想是通过重新排列激活通道并按簇量化,从而减少通道范围差异的影响。同时,通过操作融合,避免了显式重新排序的操作,使得RPTQ的开销几乎为零。通过这种方法,RPTQ有效地解决了激活通道数值范围差异导致的量化误差问题。
- 五月,ICLR在奥地利维也纳召开,后摩智能团队与伊利诺伊理工和伯克利大学等单位合作提出的另一种创新性量化方法PB-LLM,相较于传统的二值化方法,PB-LLM采用了部分二值化的策略,即将一部分显著权重分配到高位存储,从而在实现极端低位量化的同时,保持了Transformer的语言推理能力。通过对显著权重的充分利用,PB-LLM取得了显著的性能提升,为Transformer的内存消耗和计算复杂度提供了有效的解决方案。这是学术界首次探索对Transformer权重数值二值化的工作,助力大语言模型在存内计算中的应用。
二、产业界重点事件盘点
1、三星与SK海力士推动LPDDR6-PIM技术的标准化与应用
2024年,三星电子与SK海力士携手合作,致力于标准化“低功耗双倍数据速率6(LPDDR6)-内存处理(PIM)”产品。这一合作标志着存算一体技术在移动端应用的又一重要里程碑。三星积极响应苹果的需求,着力研究新的低功耗双倍数据速率LPDDR DRAM封装方式,并计划在iPhone DRAM中应用LPDDR6-PIM技术。
这一举措不仅旨在提升端侧AI性能,还在数据处理速度和能效方面带来显著突破,有望改变消费电子设备存储芯片的应用格局。通过标准化进程,LPDDR6-PIM技术能够更高效地应用于各类数据密集型任务场景,例如在金融领域的信贷风险评估中,可大幅缩短评估时间;在电商的商品推荐系统中,能显著提升推荐准确率。这一合作有力地促进了存算一体技术在行业应用中的规范化和规模化发展,为未来智能设备的性能提升奠定了坚实基础。
2、后摩智能推出端边大模型AI芯片后摩漫界M30
2024年,国内AI芯片企业后摩智能成功推出基于存算一体架构的边端大模型AI芯片——后摩漫界M30,以及配套的计算模组、计算盒子、AI加速卡等系列硬件产品,实现了存算一体技术在端边大模型领域的应用突破。后摩漫界将存储与计算集成在同一芯片上,有效解决了传统架构中数据传输延迟的问题,极大地提高了计算效率和吞吐量。后摩漫界M30提供100至256TOPS算力,功耗为12至35W,支持ChatGLM、Llama2、通义千问等多种大模型。在AI PC、智能座舱、NAS等设备中, M30展现出卓越的大模型运行能力,为端边大模型的商业化落地提供了坚实可靠的算力支撑。这一成果不仅推动了存算一体技术在边缘计算领域的广泛应用,也为智能设备的高效运行提供了新的解决方案,进一步拓展了存算一体技术在消费电子和工业自动化等领域的应用前景。后摩智能已与联想集团达成战略合作,结合后摩智能在存算一体AI芯片领域的创新优势和联想在PC领域的深厚积累,共同推动AI算力向边缘侧和端侧下沉。
3、d-Matrix首款AI芯片出货,数字存算一体技术助力性能飞跃
2024年11月,微软支持的硅谷初创公司d-Matrix宣布其首款AI芯片Corsair正式出货,标志着存算一体技术在高性能计算领域的商业化取得重大突破。Corsair芯片在单台服务器中为Llama3 8B模型提供每秒处理60,000个tokens的性能,每个token延迟仅为1毫秒,交互速度提升10倍,能效提高3倍。其关键亮点包括150TB/s的超高内存带宽、2400 TFLOP的8位峰值计算能力和2GB集成性能内存,以及高达256GB的片外容量内存。
d-Matrix通过DIMC技术,将计算单元直接集成到存储器中,减少了数据移动,显著降低了延迟和能耗。这种架构特别适合AI推理任务,能够有效消除数据移动带来的能耗和延迟。Corsair的推出不仅展示了存算一体技术在高性能计算领域的巨大潜力,还为AI芯片市场注入了新的活力,为存算一体技术的广泛应用提供了有力证明。
4、Graphcore被日本软银集团收购
2024年7月15日,英国的Graphcore公司被日本软银集团收购。尽管交易细节尚未公开,但此次收购使Graphcore得以继续运营并保留其管理团队。此前,Graphcore推出的智能处理单元(IPU)芯片曾被视为英伟达的有力竞争者。此次收购事件不仅为Graphcore带来了新的发展机遇,也给存算一体芯片市场的竞争态势和产业布局带来了新的变数。软银集团的介入可能会引发行业内的资源整合与技术融合,进一步推动存算一体技术在全球范围内的发展和应用。
Part2:2025年存算一体技术与应用趋势展望
1、多样化的存内计算技术涌现
随着大模型技术的快速发展,存内计算技术将呈现多样化和多层次化的发展趋势。基于不同存储介质的存内计算方案,如Flash、SRAM、DRAM和RRAM(忆阻器)等,将并行发展以满足多样化的应用场景需求。Flash 存内计算以其低功耗和小算力的特点,适用于智能穿戴设备等端侧场景;SRAM作为当前最成熟的存储介质,SRAM的制作工艺、研发工具和CMOS集成的电路模型都更加成熟稳定,同时SRAM具有更快的操作速度和耐久性,可以实时在存算单元中刷新计算数据,为大算力提供重要的保障;DRAM能够在相同芯片面积上实现比 SRAM 更高的存储密度,这使得能够提供大容量的内存,更适合数据中心和AI训练等高性能需求场景。新型存储工艺包括RRAM、MRAM等,相比于传统的非易失存储(如Flash), 新型存储的读写性能更好、具备更好的工艺可扩展性。从端侧到边缘侧(如自动驾驶)再到云端(如大模型训练),存内计算技术将根据不同场景提供从低功耗到高性能的多样化解决方案。同时,存内计算还将与感存算一体、近存计算等技术深度融合,形成多层次的技术生态,满足从数据采集到处理的全链条需求。
2、DRAM存内计算硬件商业化加速
2025年,基于DRAM的存内计算硬件将迎来商业化加速。三星、SK海力士等半导体巨头已推出HBM-PIM(高带宽内存存内计算)产品,通过在DRAM芯片中嵌入计算单元,显著提升了AI训练和推理的效率。例如,三星的HBM-PIM在AI气候模拟项目中实现了性能提升2.5倍、能耗降低60%的优异表现。DRAM存内计算通过减少数据搬运,大幅降低了硬件成本和功耗。以数据中心为例,采用该技术后,硬件成本可降低50%,运营成本减少20%-30%。随着JEDEC等标准组织的推动,DRAM存内计算的接口和架构将逐步统一,这将有力促进产业链上下游的协同发展,加速存内计算技术在数据中心等领域的广泛应用。
3、先进封装技术助力存内计算架构升级
2025年,2.5D、3D和3.5D等先进封装技术将继续推动存内计算架构的升级。通过将计算芯片和存储芯片紧密堆叠,这些技术能够有效缩短数据传输路径,大幅提升访存带宽。AMD和Intel采用2.5D封装的HBM技术已在高性能计算领域取得显著成效,验证了先进集成技术在存内计算中的巨大潜力。3D封装技术通过将计算单元和存储单元垂直堆叠,实现了更极致的存算融合,不仅提升了芯片的集成度,还显著降低了功耗和延迟,特别适用于AI推理和边缘计算场景。作为3D封装的升级版,3.5D技术引入了更复杂的互连结构和散热方案,进一步提升了芯片的性能和可靠性。例如,台积电的3.5D封装技术已在AI芯片中实现商用,为存内计算新架构的发展提供了有力支持。