2012年,谷歌团队推出著名的八层卷积神经网络模型AlexNet,在人脸识别方面大幅提升了图像识别准确率,带动了卷积的普及。
2017年,谷歌团队又推出基于自注意力机制的模型Transformer,在语义理解方面大幅提升了语音翻译效果,带动了GEMM的普及。
2018年,OpenAI团队推出一种预训练语言模型GPT(Generative Pre-trained Transformer),也就是最初代的GPT-1(12层),并通过了图灵测试。
也许在GPT-1时代,大众还没有什么感受,但GPT-3、GPT-4架构下的ChatGPT,以及OpenAI 后面发布的Sora视频生成模型,让人工智能成功出圈,并产生了全球性的“大模型和AIGC热”。
对这几年“人工智能和大模型”的翻火,乌镇智库理事长张晓东表示:“人工智能火过很多次,图灵1950年写的论文《计算机与人工智能》中就讲了一个‘模仿游戏’,现在又叫‘图灵测试’,其中就定义了智能——一个屋子关一个人,另一个屋子关一个机器,不停地问他们问题,当问的时间足够长,仍然不能判别出来哪个房间是人、哪个房间是机器的时候,这个机器就是智能的。”
那什么是生成式人工智能呢?张晓东认为其就是“图灵机求逆”,即“我给你一堆输出,然后让你猜什么样的图灵机能够生成这个输出,如果用数学的话说,大模型就是图灵机。”
今天,随着AI技术的快速发展与应用,大模型的部署已从云端训练,逐渐向边缘端推理和微调延伸,这一转变预示着边缘计算领域将迎来前所未有的机遇与挑战。
大模型落地边缘侧,芯片性能和功耗的平衡是关键
以语言为基础的多模态大模型已经达到深层智能水平,得到了爆发式的发展,在此基础上,OpenAI上线了GPT Store,AI在商业上的应用将促进大模型更快地发展。
而为了更好地实现商业闭环,必须寻找到更多的商业落脚点,因此将大型人工智能模型引入边缘设备、嵌入式系统势在必行。
正如张晓东所言,“大模型的部署需要海量的高算力芯片,预计2027-2028年,超级智能会到来,届时最大的几个模型将需要1000万张卡,消耗的能量相当于一个中国中小型的省的耗电量,由此带来的巨额成本,会成为行业发展的最大挑战。”
今天我们看到大模型已经在AI手机、AI PC、机器人导航、AR数字沙盘和汽车中得到初步应用。而边缘侧或者嵌入式终端设备有限资源下的算力部署,以及对功耗和成本的要求只会更加严苛。
对此,芯原执行副总裁、IP事业部总经理戴伟进表示:“当大模型落地边缘侧或者终端,边缘计算主要侧重于推理、实施决策和部分数据训练,而终端则更侧重于原始数据采集,为大模型提供标记化的数据输入。当云端需要大量GPU卡来满足海量算力时,边缘侧和终端更需要能在性能和功耗间能找到平衡的AI芯片和解决方案。”
而芯原作为国内排名第一、国际排名第七的IP大厂,可以为客户提供广泛的IP产品组合,在AI行业中,芯原AI-Computing IP系列产品可覆盖数据中心、边缘服务器、嵌入式设备三个场景,包括VIP9X00 NPU IP、CC8X00 GPGPU IP、GC9X00AI NPU+GPU IP、CCTC-MP Tensor Core GPU IP。
从公司营收结构来看,2023年财年,在芯原IP授权业务收入中 (包括知识产权授权使用费、特许权使用费) ,图形处理器GPU IP、神经网络处理器NPU IP和视频处理器VPU IP收入合计占比约为72%。
边缘和端侧AI,NPU或是最佳选择
当边缘与云协同计算,低功耗催生了产业对轻量大模型的需求,包括语音模型、视觉模型、电力模型等。
“云里面只能生成树干,而端侧的微调卡和推理卡是树枝,可以更好的保护隐私和安全。” 芯原股份创始人、董事长兼总裁戴伟民如是说。
事实上,目前专门为AI算法设计的硬件加速器有TPU、NPU、LPU、IPU等,那种硬件加速器可以更好地在边缘端提升AI模型的推理和微调效率呢?
芯原NPU IP研发副总裁查凯南认为:“面向边缘人工智能对模型和硬件的需求,NPU更适合端侧人工智能。”
从实际应用中,我们看到端侧推理最受欢迎的确实是NPU。
关联到芯原NPU的销售情况,根据戴伟进的介绍:“芯原自2016年开始人工智能NPU的开发,当前芯原的NPU已经在全球累计出货超过1亿颗,已被72家客户用于其128款人工智能芯片中,广泛应用于AI视觉、AI语音、AI图像、AIoT/智慧家居、AR/VR、自动驾驶、PC、智能手机、监控、数据中心、可穿戴设备、智慧医疗和机器人等领域。”
那么,为何芯原的NPU会这么受欢迎呢?
根据查凯南的介绍,“如今Transformer大模型到处可见,而芯原对Transformer做了优化,对推理和训练都做了很多工作。在端侧,芯原拥有VIP9X00和GC9XX00AI AI-GPU IP的同时,还有专门为端侧定制的NPU IP,它能高效地处理各类神经网络和计算任务,最小化数据传输。”
值得一提的是,最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力,不仅适用于Transformer和卷积神经网络(CNN),还融合了4位量化和压缩技术,以解决带宽限制问题,方便在嵌入式设备上部署生成式人工智能(AIGC)和大型语言模型(LLM)算法,如Stable Diffusion和Llama 2。
机器人部署AI大模型,NPU助力端侧芯片迎接挑战
“现在的机器人到底是智能机器人还是智障机器人呢?实际上的确过去的AI卷积计算已经解决了部分特殊场景上的功能,但普适性还不够,未来大模型跟3D空间计算会给具身智能带来很多加速。”,神顶科技(南京)有限公司董事长、CEO袁帝文如是说。
什么是具身智能?其实说开了是我们经常能听到的一些热门应用,包括工业机器人、人形机器人、AGV/AMR、MR/AR、自动驾驶、低空飞行、智能家居等。
那么当大模型落地这些机器人应用中时,会给终端芯片带来哪些设计上的要求呢?
袁帝文重点提到了对高实时性NPU的要求,他认为:“端侧的NPU不仅需要多核多线程,在高能效比的技术上,来提升实时处理能力、多任务处理效率、人工智能能力,支持复杂感知与融合;还需要对Transformer实现高效支持,来解决内存访问成本和内存使用成本等问题;最后还需要具有模型参数量化和压缩的能力,比如通过权重压缩,即通过多种技术方法(如量化、剪枝、稀疏,Tiling等)来减少模型的存储和计算需求。”
据悉,当前神顶科技正在采用“3D空间计算芯片 + 芯原NPU”来实现大模型在机器人上的人工智能部署。
写在最后
借用戴伟民博士的观点作为本文结尾,“ChatGPT出来之前只会下棋,但出来后就变成了通用人工智能,但是否会带来‘超智能’的问题?就中国而言,虽然在算力方面有些限制,计算机语言也不是中文,资金方面也比不上美国,但我们必须追上去,而不能成为“弱智能”国家。”