大模型落地边缘侧的痛点和机遇

人工智能和大模型的概念并非新鲜事儿。

2012年，谷歌团队推出著名的八层卷积神经网络模型AlexNet，在人脸识别方面大幅提升了图像识别准确率，带动了卷积的普及。

2017年，谷歌团队又推出基于自注意力机制的模型Transformer，在语义理解方面大幅提升了语音翻译效果，带动了GEMM的普及。

2018年，OpenAI团队推出一种预训练语言模型GPT(Generative Pre-trained Transformer)，也就是最初代的GPT-1（12层），并通过了图灵测试。

也许在GPT-1时代，大众还没有什么感受，但GPT-3、GPT-4架构下的ChatGPT，以及OpenAI 后面发布的Sora视频生成模型，让人工智能成功出圈，并产生了全球性的“大模型和AIGC热”。

对这几年“人工智能和大模型”的翻火，乌镇智库理事长张晓东表示：“人工智能火过很多次，图灵1950年写的论文《计算机与人工智能》中就讲了一个‘模仿游戏’，现在又叫‘图灵测试’，其中就定义了智能——一个屋子关一个人，另一个屋子关一个机器，不停地问他们问题，当问的时间足够长，仍然不能判别出来哪个房间是人、哪个房间是机器的时候，这个机器就是智能的。”

那什么是生成式人工智能呢？张晓东认为其就是“图灵机求逆”，即“我给你一堆输出，然后让你猜什么样的图灵机能够生成这个输出，如果用数学的话说，大模型就是图灵机。”

今天，随着AI技术的快速发展与应用，大模型的部署已从云端训练，逐渐向边缘端推理和微调延伸，这一转变预示着边缘计算领域将迎来前所未有的机遇与挑战。

大模型落地边缘侧，芯片性能和功耗的平衡是关键

以语言为基础的多模态大模型已经达到深层智能水平，得到了爆发式的发展，在此基础上，OpenAI上线了GPT Store，AI在商业上的应用将促进大模型更快地发展。

而为了更好地实现商业闭环，必须寻找到更多的商业落脚点，因此将大型人工智能模型引入边缘设备、嵌入式系统势在必行。

正如张晓东所言，“大模型的部署需要海量的高算力芯片，预计2027-2028年，超级智能会到来，届时最大的几个模型将需要1000万张卡，消耗的能量相当于一个中国中小型的省的耗电量，由此带来的巨额成本，会成为行业发展的最大挑战。”

今天我们看到大模型已经在AI手机、AI PC、机器人导航、AR数字沙盘和汽车中得到初步应用。而边缘侧或者嵌入式终端设备有限资源下的算力部署，以及对功耗和成本的要求只会更加严苛。

对此，芯原执行副总裁、IP事业部总经理戴伟进表示：“当大模型落地边缘侧或者终端，边缘计算主要侧重于推理、实施决策和部分数据训练，而终端则更侧重于原始数据采集，为大模型提供标记化的数据输入。当云端需要大量GPU卡来满足海量算力时，边缘侧和终端更需要能在性能和功耗间能找到平衡的AI芯片和解决方案。”

而芯原作为国内排名第一、国际排名第七的IP大厂，可以为客户提供广泛的IP产品组合，在AI行业中，芯原AI-Computing IP系列产品可覆盖数据中心、边缘服务器、嵌入式设备三个场景，包括VIP9X00 NPU IP、CC8X00 GPGPU IP、GC9X00AI NPU+GPU IP、CCTC-MP Tensor Core GPU IP。

从公司营收结构来看，2023年财年，在芯原IP授权业务收入中 (包括知识产权授权使用费、特许权使用费) ，图形处理器GPU IP、神经网络处理器NPU IP和视频处理器VPU IP收入合计占比约为72%。

边缘和端侧AI，NPU或是最佳选择

当边缘与云协同计算，低功耗催生了产业对轻量大模型的需求，包括语音模型、视觉模型、电力模型等。

“云里面只能生成树干，而端侧的微调卡和推理卡是树枝，可以更好的保护隐私和安全。” 芯原股份创始人、董事长兼总裁戴伟民如是说。

事实上，目前专门为AI算法设计的硬件加速器有TPU、NPU、LPU、IPU等，那种硬件加速器可以更好地在边缘端提升AI模型的推理和微调效率呢？

芯原NPU IP研发副总裁查凯南认为：“面向边缘人工智能对模型和硬件的需求，NPU更适合端侧人工智能。”

从实际应用中，我们看到端侧推理最受欢迎的确实是NPU。

关联到芯原NPU的销售情况，根据戴伟进的介绍：“芯原自2016年开始人工智能NPU的开发，当前芯原的NPU已经在全球累计出货超过1亿颗，已被72家客户用于其128款人工智能芯片中，广泛应用于AI视觉、AI语音、AI图像、AIoT/智慧家居、AR/VR、自动驾驶、PC、智能手机、监控、数据中心、可穿戴设备、智慧医疗和机器人等领域。”

那么，为何芯原的NPU会这么受欢迎呢？

根据查凯南的介绍，“如今Transformer大模型到处可见，而芯原对Transformer做了优化，对推理和训练都做了很多工作。在端侧，芯原拥有VIP9X00和GC9XX00AI AI-GPU IP的同时，还有专门为端侧定制的NPU IP，它能高效地处理各类神经网络和计算任务，最小化数据传输。”

值得一提的是，最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力，不仅适用于Transformer和卷积神经网络（CNN），还融合了4位量化和压缩技术，以解决带宽限制问题，方便在嵌入式设备上部署生成式人工智能（AIGC）和大型语言模型（LLM）算法，如Stable Diffusion和Llama 2。

机器人部署AI大模型，NPU助力端侧芯片迎接挑战

“现在的机器人到底是智能机器人还是智障机器人呢？实际上的确过去的AI卷积计算已经解决了部分特殊场景上的功能，但普适性还不够，未来大模型跟3D空间计算会给具身智能带来很多加速。”，神顶科技（南京）有限公司董事长、CEO袁帝文如是说。

什么是具身智能？其实说开了是我们经常能听到的一些热门应用，包括工业机器人、人形机器人、AGV/AMR、MR/AR、自动驾驶、低空飞行、智能家居等。

那么当大模型落地这些机器人应用中时，会给终端芯片带来哪些设计上的要求呢？

袁帝文重点提到了对高实时性NPU的要求，他认为：“端侧的NPU不仅需要多核多线程，在高能效比的技术上，来提升实时处理能力、多任务处理效率、人工智能能力，支持复杂感知与融合；还需要对Transformer实现高效支持，来解决内存访问成本和内存使用成本等问题；最后还需要具有模型参数量化和压缩的能力，比如通过权重压缩，即通过多种技术方法（如量化、剪枝、稀疏，Tiling等）来减少模型的存储和计算需求。”

据悉，当前神顶科技正在采用“3D空间计算芯片 + 芯原NPU”来实现大模型在机器人上的人工智能部署。

写在最后

借用戴伟民博士的观点作为本文结尾，“ChatGPT出来之前只会下棋，但出来后就变成了通用人工智能，但是否会带来‘超智能’的问题？就中国而言，虽然在算力方面有些限制，计算机语言也不是中文，资金方面也比不上美国，但我们必须追上去，而不能成为“弱智能”国家。”

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MK64FN1M0VLL12	1	Freescale Semiconductor	RISC MICROCONTROLLER	ECAD模型下载ECAD模型	$11.93	查看
R5F104MKGFB#50	1	Renesas Electronics Corporation	Low Power, High Function, General Purpose Microcontrollers for Motor Control, Industrial and Metering Applications, LQFP, /Tray	ECAD模型下载ECAD模型	暂无数据	查看
ATMEGA328P-AU	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP32, 7 X 7 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ABA, TQFP-32	ECAD模型下载ECAD模型	$2.05	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MK64FN1M0VLL12

Freescale Semiconductor

RISC MICROCONTROLLER