端侧AI，如何做到普惠、好用？

“AI大潮汹涌澎湃，大模型要真正落地，一定是云、边、端的三级结合。与此同时，人工智能正在走向万物智能，受到实时响应需求的影响，车载大模型或成为落地最快的板块之一。” 爱芯元智创始人、董事长仇肖莘在2024 WAIC上如是说。

图 | 爱芯元智参展2024 WAIC ，来源：爱芯元智

大模型落地端侧，GPGPU不是最好的方案

根据市场调研数据显示，2023年我国人工智能核心产业规模为5784亿元，增速达到13.9%。

随着AI模型的发展趋于成熟，AI基础设施建设变得越来越重要。基于此，仇肖莘得出结论，在大模型时代，更经济、更高效、更环保将成为AI基础设施的关键词。

图 | 爱芯元智创始人、董事长仇肖莘，来源：爱芯元智

下潜到芯片层面，如何让大模型在AI芯片中跑得更快，如何让大模型实现更好的调优，是目前人工智能要解决的落地难题，更经济的AI专用芯片将成为必然。

而正是有这样的趋势推动，我们观察到，美国、以色列等国家已经好多年没有出现新的AI创业公司，但今年却出现了很多家，这是因为当大模型落地边侧，原来的架构可能已经不再适用。“具体来讲，当基础网络架构还不稳定时，GPGPU存在灵活性优势，但过去10年中，卷积网络的基础架构已经趋于稳定，包括算子的固定，大多已经进入微调和调优阶段，所以在端侧GPGPU不是最好的方案，DSA架构（Domain Specific Architecture，特定领域架构）下的AI芯片更具能效优势”，仇肖莘表示。

据悉，NPU通常采用DSA架构，DSA架构下的NPU通过模仿生物神经网络构建，可以在电路层实现存储和计算一体化，提高运行效率。

对此，爱芯元智联合创始人、副总裁刘建伟表示：“我们不能把NPU当做加速起来使用，否则就不能适应网络架构的变化，也不是扩展指令集，否则就不能把能量消耗最大比例的放在Tensor计算上，NPU应该是一个AI原生处理器。”

图 | 爱芯元智联合创始人、副总裁刘建伟，来源：爱芯元智

刘建伟以爱芯通元AI处理器为例，进一步补充道：“爱芯通元AI处理器的核心是算子指令集和数据流微架构。其底层采用了可编程数据流的微架构，来提高能效和算力密度。同时它的灵活性也保证了算子指令集的完备性，支撑各种AI的应用。而其成熟的软件工具链可以让开发者快速上手。此外，软硬件的联合设计也保证了爱芯通元AI处理器的高速迭代和竞争力。爱芯通元AI处理器很大程度降低了AI应用的开发及运维成本，让AI智能更经济、更高效、更环保。”

谁是端侧大模型的最佳载体？

当大模型落地边缘侧和端侧，行业内猜测AI手机、AI PC、汽车等应用场景或成为首批试点。对于AI手机、AI PC来说，因为与当前AI大模型的应用场景覆盖度较高，且潜在市场体量较大，被寄希望于成为“大模型的最佳载体”。而对于汽车来说，虽然当前销量可能面临瓶颈，但智能化的渗透率还在继续。

以手机行业为例，今年全球各大手机厂家纷纷推出了跑在终端的“大模型”版本，比如Google的Gemini-nano（1.8B）、vivo的蓝星大模型（1B）、以及国内“小钢炮”MiniCPM（1B）等。此外，苹果公司在2024年全球开发者大会上对外披露了自研模型OpenELM，其参数量约为3B，在iPhone 15 Pro上的处理速度可以达到每秒生成30个token，初始响应延迟约0.6毫秒。

根据苹果的测试结果，这个3B级别的端侧小模型在性能上足以比肩主流的7B级别模型的能力，而云端模型的效果甚至可以与GPT-4 Turbo级别相媲美。

对此，爱芯元智创始人、董事长仇肖莘表示：“苹果在手机上跑3B的模型，如果能落地应用，那么3-7B基本能满足当下手机市场的需求。”

“此外，手机算力不够，当前需要外挂协处理器，但成本会上升，未来手机的SoC中一定会集成NPU，但我们应思考的是，集成多大的NPU，才能平衡算力要求和成本问题。当前国内已经有很多厂商和爱芯元智在接触并讨论关于NPU IP集成的合作。” 仇肖莘补充道。

值得一提的是，由于这些模型的参数规模与当前以GPT4为代表的云端大模型参数规模相差多个数量级，因此也被称为“小模型”。

用刘建伟的话来说，端侧跑小模型基本够了，边缘侧跑多模态的大模型。

计算单元已经不再是AI芯片的最大瓶颈

在边缘计算和端侧设备的应用场景中，与云端计算的集中处理模式不同，它们更强调感知与计算的紧密结合。因此，对于边、端两侧，计算单元已经不再是AI芯片的最大瓶颈，当前最大的挑战是在DDR和I/O侧，所以如何节省带宽、节省存储成为新的挑战，为此对混合精度的需求增加，比如我们看到英伟达也从原来的FP8、FP16转变到开始支持INT4。

事实上，在人工智能网络的实际应用中，经常存在信息冗余现象，这表明在深度学习模型的许多部分，并不总是需要高精度的浮点数，如32比特或16比特的计算。通过采用低精度的数据表示，例如8比特整数（INT8）或4比特整数（INT4），可以显著减少模型的计算负担和内存需求，同时仍然保持可接受的准确性水平。

图 | 神经网络示意图（简化版），来源：爱芯元智

据悉，在爱芯元智的AI-ISP应用中，就是基于混合精度的，网络中许多中间层都是采用INT4精度。相比原来的8比特网络，数据搬运量可能就变成原来的1/4。由此便可以提升NPU的使用率和效率，在单位面积内提供数倍于传统NPU的等效算力，同时还能把成本和功耗降下来，更有利于端侧和边缘侧AI地落地。

当然，在AI落地的过程中，除了要解决内存墙和功耗墙问题以外，还需要考虑算法和硬件的结合问题。尤其是在端侧和边缘侧，芯片天生就和场景有一种弱耦合的关系，所以爱芯元智在设计AI视觉芯片时，采用了从应用到算法再到NPU的联合优化设计。

我们看到，今年4月，爱芯元智AX650N已经第一时间完成Llama 3、Phi-3、Llama 2、TinyLlama、Phi-2、Qwen1.5、ChatGLM3等国内外主流的开源大语言模型适配，而完成这些适配的前提，正式AX650N原生支持transformer，并完成了现有NPU工具链针对大语言模型的支持和调优。

此外，近期我们看到爱芯通元V4（AX630C）已经跑通了通义千问（Qwen2.0），这个仅百元左右的模组，就能跑通义千问0.5B的模型，并解决生活中端侧的一些问题，这意味着大模型在人机交互方面落地已经成为可能。

写在最后

仇肖莘在2024 WAIC上表达了一个愿景：“让黑光全彩相机，布满田间地头，让每一分驾驶需求，都享受AI的服务，高效AI处理器，令边缘智能触手可及。”

图 | 爱芯元智生态展示，来源：爱芯元智

然而，摩尔定律放缓，每个晶体管的价格已经不再下降，所以在硬件上一定要做减法，来降低硬件成本和软件开发的难度，这有这样才能实现AI普惠。而爱芯元智的策略是通过平台技术来均摊成本，最终实现降本增效，惠利更多客户。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
SI5338B-B-GMR	1	Silicon Laboratories Inc	Processor Specific Clock Generator, 350MHz, CMOS, QFN-24	ECAD模型下载ECAD模型	$13.39	查看
STM32H757XIH6TR	1	STMicroelectronics	RISC Microcontroller		暂无数据	查看
STM32F407IGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下载ECAD模型	$13.79	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

SI5338B-B-GMR

Silicon Laboratories Inc

Processor Specific Clock Generator, 350MHz, CMOS, QFN-24