大模型需求暴增，NPU有望在端边落地部署

ChatGPT的火爆，让人们意识到AI其实有着更高的上限，也让业界更多关注到其背后的Transformer大模型。除了云端、除了自然语言处理，业界正在思考：是否可以让Transformer在端侧、边缘侧高效部署？是否可以让Transformer在计算机视觉领域发挥出更大潜能？

可能吗？爱芯元智已经开始了这一尝试。

Transformer何方神圣？

GPT大模型，全称Generative Pre-training Transformer，是一种使用自回归模型进行语言建模的预训练模型。当下大火的ChatGPT，以及一系列AI模型，其实都离不开Transformer，它是当前各种大模型所采用的主要结构。

要理解这个模型，可以先追溯一下历史。业界很早就在探索一件事——如果计算机能够像人类一样理解语言该有多好，出于这个目的，业界开始了对自然语言处理/NLP的研究。

Transformer模型是谷歌在2017年推出的，可以说，这是深度算法领域的关键一跃，奠定了当下通用人工智能的基础。这个模型可以同时处理输入序列中所有位置的信息，避免了传统的逐个处理输入序列的方式，从而可以更加高效地进行文本处理。

接下来，综合了各种技术和语言模型之后，Transformer模型越来越强大，并在此基础上诞生了BERT、GPT等，这些语言模型应用在自然语言生成、机器翻译、问答系统等，为人工智能领域的发展带来了新的活力。

为什么要在端侧、边缘侧落地大模型？

爱芯元智联合创始人、副总裁刘建伟认为，大模型正在使行业进入开发新范式的拐点，它也将带来一些新机会。首先从需求角度来看，业界对端侧和边缘侧AI加速是有强需求的。只不过一直以来，AI落地标准化场景效果较好，而在一些通用场景中，除非增加针对性的投入，才能进一步提升应用效果，但这同时意味着更高的成本，成为AI加速应用落地的主要困难。

其次，从大模型能够带来的改变来看，它能够降低边际场景的AI成本，因为它不需要对长尾场景做专门的、从头到尾的适配，通过部署预训练的大模型就能达到比较好的效果，这将使AI在端侧和边缘侧的应用再上一个台阶。

如何在端侧、边缘侧高效部署Transformer？

相比于在云端用GPU部署Transformer大模型，在边缘侧、端侧部署Transformer最大的挑战首先来自功耗，什么平台能够“接得住”它？这是核心考量。

当前，业界通过跑SwinT模型来看平台对Transformer的支持情况。爱芯元智今年3月推出的第三代高算力、高能效比SoC芯片——AX650N，在运行SwinT时表现出色：361 FPS的高性能、80.45%的高精度、199 FPS/W的低功耗以及原版模型且PTQ量化的易部署能力，这些特性使其成为端侧和边缘侧部署Transformer的首选平台。

具体来看，361帧的高性能可媲美汽车自动驾驶领域基于GPU的高端域控SoC；80.45%的高精度成绩同样高于市面平均水平；199 FPS/W的速度体现出低功耗的特点，对比于目前基于GPU的高端域控SoC，有数倍优势。此外，AX650N部署方便，GitHub上的原版模型可以在爱芯元智平台上高效运行，不需要对模型做修改，不需要QAT重新训练。

并且，AX650N支持低比特混合精度，用户如果采用INT4，可以极大减少内存和带宽占用率，可以有效控制端侧边缘侧部署的成本。这些特性都保证了AX650N最终落地效果更好用、更易用，大幅提升了用户的效率。

据介绍，AX650N已适配包括ViT/DeiT、Swin/SwinV2、DETR在内的Transformer模型，在DINOv2也达到30帧以上运行结果，这也使得用户在下游进行检测、分类、分割等操作更加方便。基于AX650N的产品也已经在智慧城市、智慧教育、智能制造等计算机视觉领域发挥出重要作用。

Transformer在视觉领域的潜力？

谈及Transformer在视觉领域的潜力，刘建伟表示，视觉应用凡是对环境有感知、理解需求的，比如智慧城市、智能机器人、自动驾驶等领域需要用摄像头去看画面的，对Transformer都有比较强的需求。

不过，视觉应用场景非常碎片化，这也是以往CNN网络遇到的一个普遍问题，这对Transformer来说是否能发挥所长？

爱芯元智认为，Transformer模型具有一定的画面语意理解能力，无论是什么场景，它已经具备了基本的理解。在以往的应用中，常见的问题是：这个场景没见过，或是这个场景下的数据没有标注过，因此就无法落地了。而Transformer让大家看到了解决这个问题的希望。

以河道垃圾监测为例：当河道上出现了一种垃圾，传统流程是采集数据—标注—训练，如果突然出现一种新的垃圾，是之前数据标注/训练没有覆盖的，系统就无法识别，就必须重新采集。但有了采用无监督训练的大模型之后，无论出现什么样新类型的垃圾，系统都能自主推理和判断。

事实上，Transformer在视觉领域的尝试其实一直都有，比如SwinT就是把Transformer用在视觉领域的一个模型。它和传统CNN训练方法一样，只是上限更高，并且随着NLP领域突飞猛进的发展，新的趋势包括通过无监督、自监督的训练方式。

接下来，爱芯元智AX650N将会针对Transformer结构进行持续优化，并且探索更多的Transformer大模型，例如多模态大模型，不断让Transformer在爱芯元智平台上得到更好的落地效果。值得一提的是，爱芯元智还将推出开发板，满足开发者对Transformer深度研究的需求，探索更丰富的产品应用。

NPU在端侧、边缘侧部署大模型的挑战是什么？

爱芯元智认为，基于NPU在端侧、边缘侧部署Transformer大模型，其挑战可以从软硬件两方面来看。从硬件架构角度来讲，NPU、TPU等都属于特定领域相关的架构，需要早期定位就比较准，后续才能进行更有针对性的功能优化。

软件方面，相对于CNN，Transformer是一个比较新的网络，推理时一般要求做量化，这往往要求一定的工程经验。爱芯元智在这方面探索较早，例如SwinT量化精度、浮点精度在1%以内的误差，都属于业内领先。

“从目前的反馈来看，客户的体验是觉得我们的平台比较好用、易用，好用是指性能较高，能够实时跑更多的应用、对场景的适应性比较强；易用是上手速度比较快，想跑的应用基本上都能跑起来，量产周期也能缩短”，爱芯元智相关负责人表示。

“爱芯元智将继续努力打造基于芯片+软件的端侧、边缘侧人工智能算力平台，加速基于Transformer的大模型在端侧、边缘侧落地的节奏，最终实现普惠AI造就美好生活的企业愿景”，爱芯元智创始人、CEO仇肖莘女士如是说。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32H743IIT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下载ECAD模型	$17.38	查看
ATTINY85-20SUR	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PDSO8, 0.208 INCH, GREEN, EIAJ, PLASTIC, SOIC-8	ECAD模型下载ECAD模型	$1.43	查看
LPC4357FET256,551	1	NXP Semiconductors	LPC4357FET256 - Dual-core Cortex-M4/M0, 1 MB Flash, 136 kB SRAM, 2 HS USB with on-chip PHY, Ethernet, LCD, CAN, AES, SPIFI, SGPIO, SCT BGA 256-Pin	ECAD模型下载ECAD模型	$15.87	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32H743IIT6

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals