• 正文
    • 大模型落地端侧,GPGPU不是最好的方案
    • 谁是端侧大模型的最佳载体?
    • 计算单元已经不再是AI芯片的最大瓶颈
    • 写在最后
  • 推荐器件
  • 相关推荐
申请入驻 产业图谱

端侧AI,如何做到普惠、好用?

原创
2024/07/16
1473
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

AI大潮汹涌澎湃,大模型要真正落地,一定是云、边、端的三级结合。与此同时,人工智能正在走向万物智能,受到实时响应需求的影响,车载大模型或成为落地最快的板块之一。” 爱芯元智创始人、董事长仇肖莘在2024 WAIC上如是说。

图 | 爱芯元智参展2024 WAIC ,来源:爱芯元智

大模型落地端侧,GPGPU不是最好的方案

根据市场调研数据显示,2023年我国人工智能核心产业规模为5784亿元,增速达到13.9%。

随着AI模型的发展趋于成熟,AI基础设施建设变得越来越重要。基于此,仇肖莘得出结论,在大模型时代,更经济、更高效、更环保将成为AI基础设施的关键词。

图 | 爱芯元智创始人、董事长仇肖莘,来源:爱芯元智

下潜到芯片层面,如何让大模型在AI芯片中跑得更快,如何让大模型实现更好的调优,是目前人工智能要解决的落地难题,更经济的AI专用芯片将成为必然。

而正是有这样的趋势推动,我们观察到,美国、以色列等国家已经好多年没有出现新的AI创业公司,但今年却出现了很多家,这是因为当大模型落地边侧,原来的架构可能已经不再适用。“具体来讲,当基础网络架构还不稳定时,GPGPU存在灵活性优势,但过去10年中,卷积网络的基础架构已经趋于稳定,包括算子的固定,大多已经进入微调和调优阶段,所以在端侧GPGPU不是最好的方案,DSA架构(Domain Specific Architecture,特定领域架构)下的AI芯片更具能效优势”,仇肖莘表示。

据悉,NPU通常采用DSA架构,DSA架构下的NPU通过模仿生物神经网络构建,可以在电路层实现存储和计算一体化,提高运行效率。

对此,爱芯元智联合创始人、副总裁刘建伟表示:“我们不能把NPU当做加速起来使用,否则就不能适应网络架构的变化,也不是扩展指令集,否则就不能把能量消耗最大比例的放在Tensor计算上,NPU应该是一个AI原生处理器。”

图 | 爱芯元智联合创始人、副总裁刘建伟,来源:爱芯元智

刘建伟以爱芯通元AI处理器为例,进一步补充道:“爱芯通元AI处理器的核心是算子指令集和数据流微架构。其底层采用了可编程数据流的微架构,来提高能效和算力密度。同时它的灵活性也保证了算子指令集的完备性,支撑各种AI的应用。而其成熟的软件工具链可以让开发者快速上手。此外,软硬件的联合设计也保证了爱芯通元AI处理器的高速迭代和竞争力。爱芯通元AI处理器很大程度降低了AI应用的开发及运维成本,让AI智能更经济、更高效、更环保。”

谁是端侧大模型的最佳载体?

当大模型落地边缘侧和端侧,行业内猜测AI手机、AI PC、汽车等应用场景或成为首批试点。对于AI手机、AI PC来说,因为与当前AI大模型的应用场景覆盖度较高,且潜在市场体量较大,被寄希望于成为“大模型的最佳载体”。而对于汽车来说,虽然当前销量可能面临瓶颈,但智能化的渗透率还在继续。

以手机行业为例,今年全球各大手机厂家纷纷推出了跑在终端的“大模型”版本,比如Google的Gemini-nano(1.8B)、vivo的蓝星大模型(1B)、以及国内“小钢炮”MiniCPM(1B)等。此外,苹果公司在2024年全球开发者大会上对外披露了自研模型OpenELM,其参数量约为3B,在iPhone 15 Pro上的处理速度可以达到每秒生成30个token,初始响应延迟约0.6毫秒。

根据苹果的测试结果,这个3B级别的端侧小模型在性能上足以比肩主流的7B级别模型的能力,而云端模型的效果甚至可以与GPT-4 Turbo级别相媲美。

对此,爱芯元智创始人、董事长仇肖莘表示:“苹果在手机上跑3B的模型,如果能落地应用,那么3-7B基本能满足当下手机市场的需求。”

“此外,手机算力不够,当前需要外挂协处理器,但成本会上升,未来手机的SoC中一定会集成NPU,但我们应思考的是,集成多大的NPU,才能平衡算力要求和成本问题。当前国内已经有很多厂商和爱芯元智在接触并讨论关于NPU IP集成的合作。” 仇肖莘补充道。

值得一提的是,由于这些模型的参数规模与当前以GPT4为代表的云端大模型参数规模相差多个数量级,因此也被称为“小模型”。

用刘建伟的话来说,端侧跑小模型基本够了,边缘侧跑多模态的大模型。

计算单元已经不再是AI芯片的最大瓶颈

边缘计算和端侧设备的应用场景中,与云端计算的集中处理模式不同,它们更强调感知与计算的紧密结合。因此,对于边、端两侧,计算单元已经不再是AI芯片的最大瓶颈,当前最大的挑战是在DDR和I/O侧,所以如何节省带宽、节省存储成为新的挑战,为此对混合精度的需求增加,比如我们看到英伟达也从原来的FP8、FP16转变到开始支持INT4。

事实上,在人工智能网络的实际应用中,经常存在信息冗余现象,这表明在深度学习模型的许多部分,并不总是需要高精度的浮点数,如32比特或16比特的计算。通过采用低精度的数据表示,例如8比特整数(INT8)或4比特整数(INT4),可以显著减少模型的计算负担和内存需求,同时仍然保持可接受的准确性水平。

图 | 神经网络示意图(简化版),来源:爱芯元智

据悉,在爱芯元智的AI-ISP应用中,就是基于混合精度的,网络中许多中间层都是采用INT4精度。相比原来的8比特网络,数据搬运量可能就变成原来的1/4。由此便可以提升NPU的使用率和效率,在单位面积内提供数倍于传统NPU的等效算力,同时还能把成本和功耗降下来,更有利于端侧和边缘侧AI地落地。

当然,在AI落地的过程中,除了要解决内存墙和功耗墙问题以外,还需要考虑算法和硬件的结合问题。尤其是在端侧和边缘侧,芯片天生就和场景有一种弱耦合的关系,所以爱芯元智在设计AI视觉芯片时,采用了从应用到算法再到NPU的联合优化设计。

我们看到,今年4月,爱芯元智AX650N已经第一时间完成Llama 3、Phi-3、Llama 2、TinyLlama、Phi-2、Qwen1.5、ChatGLM3等国内外主流的开源大语言模型适配,而完成这些适配的前提,正式AX650N原生支持transformer,并完成了现有NPU工具链针对大语言模型的支持和调优。

此外,近期我们看到爱芯通元V4(AX630C)已经跑通了通义千问(Qwen2.0),这个仅百元左右的模组,就能跑通义千问0.5B的模型,并解决生活中端侧的一些问题,这意味着大模型在人机交互方面落地已经成为可能。

写在最后

仇肖莘在2024 WAIC上表达了一个愿景:“让黑光全彩相机,布满田间地头,让每一分驾驶需求,都享受AI的服务,高效AI处理器,令边缘智能触手可及。”

图 | 爱芯元智生态展示,来源:爱芯元智

然而,摩尔定律放缓,每个晶体管的价格已经不再下降,所以在硬件上一定要做减法,来降低硬件成本和软件开发的难度,这有这样才能实现AI普惠。而爱芯元智的策略是通过平台技术来均摊成本,最终实现降本增效,惠利更多客户。

 

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
SI5338B-B-GMR 1 Silicon Laboratories Inc Processor Specific Clock Generator, 350MHz, CMOS, QFN-24

ECAD模型

下载ECAD模型
$13.39 查看
STM32H757XIH6TR 1 STMicroelectronics RISC Microcontroller
暂无数据 查看
STM32F407IGT6 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

ECAD模型

下载ECAD模型
$13.79 查看

相关推荐