对算力芯片来说,最根本的追求就是计算效率,因此优良的能效比一直是提升计算能力的关键。并行计算、分布式计算,以及采用算法和硬件高度集成的专用芯片,都是业界这些年的主要实践。
虽然多核CPU/众核GPU的并行加速技术可以提升算力,但随着摩尔定律逼近极限,存储带宽已经在制约计算系统的有效带宽,系统算力增长步履维艰。也就是在这一背景下,存算一体成为探寻极致计算效率道路上一个新方向,业界甚至称它为“AI算力的下一极”,继CPU、GPU之后的算力架构“第三极”。
存算一体的架构优势
在传统的计算过程中,数据存在于计算单元与存储单元之间,大量数据需要在CPU或GPU 中频繁移动和高速传递。业界测算,整个过程中能耗大概在60%-90%之间。同时,由于外部DRAM的运行速度远远小于CPU或GPU的运算速度,冯·诺依曼架构会受到传输带宽瓶颈的限制,也就是业界通常所说的存储墙瓶颈,系统的计算效率大打折扣。
早期的AI芯片,尝试通过堆积大量芯片资源以及高并行性来提高性能,典型的代表就是特斯拉的FSD。它采用集中式的存储和计算架构,确实可以实现较好的性能提升,但是,在遇到算力要求更大、计算要求灵活性更高的场景,计算单元使用效率会急剧下降。这是因为,如果单纯依靠堆积资源,到一定程度后,由于物理实现的限制,计算资源数据的并行性已经没有办法匹配计算资源本身的并行性了。
这样的架构设计类似于古典的中式庭院,它向内合围成一个小院子,集各种功能于一身,使得人与人、人和自然之间可以高效沟通,但因为院落的面积终究是有限的,所能容纳的居住人数也就有限,而且设计和建造这样的庭院难度和成本较大,可拓展性也比较差。
后摩智能联合创始人兼研发副总裁陈亮指出,后摩智能所做的是更进一步,把存储和计算完全融合在一起,而不只是一个近存计算。这一设计类似中西合璧的思路:先打造一个优美的庭院,在保证计算资源利用效率的基础上,再使用现代高层建筑的方式来灵活地扩展算力,这样就可以达到效率、灵活性和可扩展性的平衡。
以后摩智能最新发布的鸿途H30芯片为例,它采用的天枢架构,就是通过多核、多硬件线程的方式扩展算力,实现了计算效率与算力灵活扩展的均衡,AI计算可以在核内完成端到端处理,保证通用性。在 Int8数据精度条件下,其AI核心IPU能效比15Tops/W,是传统架构芯片的7倍以上。
概括存算一体的特点,就是在存储单位内部完成部分或全部的计算。从架构层面,它可以实现两个天然优势:由于计算和存储两个部分更近,减少了不必要的数据搬移,因此延时低、效率高。
大算力存算一体芯片的市场前景
存算一体正面向大算力、通用性、高计算精度等方面持续演进。面向智能驾驶、数据中心等大算力应用场景,它们在可靠性、算力方面有较高要求,业界认为,存算一体芯片有望另辟蹊径抢占云计算市场。
中国电动汽车百人会副理事长兼秘书长张永伟则认为,智能驾驶市场规模庞大,仍处于加速渗透的阶段,为新技术和新企业提供了创新发展的巨大机遇。存算一体作为一种创新技术,对工艺制程依赖度较低,是智能驾驶芯片具有前瞻性的一种选择。
后摩智能认为存算一体的发展逻辑是受应用驱动的。正是因为AI、大数据分析这类数据密集型应用的出现后,对能效比的需要开始迅速上升,推动了存算一体的发展。并且在产业层面,存算一体技术在0到1的阶段已初步形成IP授权、定制开发、自定义产品多种商业模式,能够在特定应用场景中实现小规模量产。一旦产品出现可大规模量产的趋势,或是能够产生足够的收益,整个产业链便会积极加入,推动整个产业的快速发展。
值得一提的是,以后摩智能鸿途H30打造的智能驾驶解决方案已经在合作伙伴的无人小车上完成部署,这也是业界第一次基于存算一体架构的芯片成功运行端到端的智能驾驶技术栈,开启了存算一体大算力芯片的商用落地阶段。
根据量子位智库,到2030 年,基于存算一体技术的中小算力芯片市场规模约为1069亿人 民币,基于存算一体技术的大算力芯片市场规模约为67亿人民币,总市场规模约为1136 亿人民币。
从技术得到验证到产品化过程的前期,存算一体配套工具(如EDA软件)的研发尚处在探索阶段。缺乏成熟的配套工具等原因,可能导致基于存算一体技术的产品在短期内(5年左右)以小规模量产为主。
国产存算一体芯片企业已超十家
国内企业对于存算一体芯片的投入逐渐进入高峰期。
<与非网>汇总分析,国产存算一体芯片主要呈现以下趋势:进入2017年以来,国产存算一体芯片企业开始扎堆入场;第二,从技术路线来看,以近存计算和存内计算两种路线为主,其中,又可以细分为模拟存内计算、全数字存内计算、类脑存内计算、类脑近存计算等;第三,存储器类型相对多样化,包括闪存、SRAM、RRAM、ReRAM等;第四,国产存算一体芯片正在向大算力的方向迈进,但数量较少,以2020年成立的亿铸科技和后摩智能为代表。
来源:<与非网>据公开信息汇总(2023/05/11)
写在最后
大算力场景下,存算分离带来的计算带宽问题正在成为主要瓶颈。以智能驾驶等边缘端高并发计算场景来看,它们除了对算力需求高之外,对芯片的功耗和散热也有很高的要求。而常规架构的芯片设计中,内存系统的性能提升速度已经大幅落后于处理器的性能提升速度,有限的内存带宽无法保证数据高速传输,无法满足高级别的计算需求。在这一趋势下,存算一体方案正获得越来越多的关注,并逐步由研究走入商用场景中。
此外还有ChatGPT等生成式AI应用的助推,在巨大的芯片成本和功耗面前,也在寻求更具能效比的大算力芯片,而这也将是存算一体大算力芯片演进的一个主要方向。