存算一体视觉SoC 破解端侧Transformer处理难题

目前，AI模型的主干网络正从CNN转变为Transformer，因为后者具有精度高、全局性特征、多模态和迁移性强的特点。在云端，用Transformer已经可以实现虚拟教师、AI智能对话（例如ChatGPT），代码自动生成等场景，可以用GPU加速计算Transformer，但在端侧——如机器人、智慧教育等场景——目前的处理器在Transformer的加速计算上还面临难题。

视海芯图微电子创始人、董事长许达文解释，终端产品往往采用NPU来加速计算，不同于CNN是以计算为核心的架构，Transformer更多是以数据为中心的计算架构，Embedding、Attention等都是访存密集型算子，这样要么很难映射到NPU上，要么映射利用率很低，需要CPU配合，存在Transformer映射中断的挑战。

这些算力挑战需要创新的处理能力。许达文认为，当前的算力革命就是DRAM存算技术，是Transformer是否能自顶而下，普遍进入广泛AI应用领域的关键。DRAM存算技术结合了3D集成工艺和创新架构，可以有效克服系统访存瓶颈，实现加速Transformer，同时极大减低芯片功耗。在工艺上，3D集成可以把DRAM/内存和计算逻辑进行垂直互联，百倍提高数据互联带宽。在架构上，电路定制、模型并行和数据并行等多种技术可以围绕Transformer结构进行定向加速。

在这个方向上，视海芯图创新性使用DRAM存算技术进行神经网络运算和图像处理加速，解决了其中的存储墙问题，实现了超低功耗的算力芯片。日前，在2023松山湖中国IC创新高峰论坛上，该公司介绍了其最新推出的一款智能视觉SoC SH1580 ，集成了4亿晶体管，采用12nm工艺。

除了3D视觉ISP，4核Arm CPU A53外，该芯片的核心技术是视海芯图自主设计的多态神经网络处理器（PTPU）。该处理器具备4 ToPS算力，不仅能支持善于提取局部特征的CNN，也对Transformer、Bert和点云神经网络等新兴AI模型有针对性加速效果。