今年以来,随着AI PC的陆续落地,边缘AI的话题进一步发酵。边缘AI,是指在数据源附近的边缘设备上直接部署和执行人工智能算法和模型的技术。这种技术可以减少对中心数据中心的依赖,降低延迟,提高数据处理速度,增强数据隐私保护,并在一定程度上减轻网络带宽的压力。
边缘AI的发展得益于神经网络的成熟、计算基础架构的进步,以及物联网设备的广泛采用。目前,边缘AI正在智能家居、智能工厂、智慧城市、智能交通、医疗健康等多个领域得到应用。日前,在芯原AI专题技术研讨会上,与会者就边缘AI的发展和应用进行了深度的讨论。
大模型推动边缘计算变革
大模型如何推动边缘计算的变革?这一过程将面临怎样的机遇与挑战?芯原执行副总裁、IP事业部总经理戴伟进表示,如今大模型已经开始渗透到边缘设备,对各行各业产生了深远的影响。多模态大模型的发展尤为突出,其深层智能水平得到了显著提升,OpenAI等公司的积极推动更是加速了这一趋势。
他提到,大模型在边缘设备上的应用主要体现在手机、AI-PC和汽车等领域。这些设备通过引入大模型人工智能,实现了更自然的人机交互、多模态能力和通用智能等特性。例如,ChatGPT等应用通过自然语言处理,使用户能够更自然地与机器对话,获取信息。同时,OpenAI发布的Sora视频生成模型和谷歌的Project Astra项目,都展示了大模型在视频生成和语音交互方面的强大能力。
芯原在AI计算领域已经进行了广泛的布局并取得了一定的成就。戴伟进表示,芯原公司凭借其领先的技术实力,为全球多个行业提供了高性能的神经网络处理器(NPU)、图形处理器(GPU)和视频处理器(VPU)。据悉,芯原的NPU已在全球累积出货超过1亿颗,广泛应用于AI视觉、AI语音、自动驾驶、智慧家居等众多领域。同时,其GPU也取得了骄人的业绩,全球累积出货近20亿颗,拥有70项国内外专利,并在嵌入式市场深耕近20年。此外,芯原的VPU技术在全球范围内也处于领先地位,特别是在AI视频处理方面展现出了强大的实力。
然而,大模型推动边缘计算变革的同时,也带来了一系列挑战。戴伟进强调,随着大模型的复杂度不断增加,对边缘设备的计算能力、存储和能耗都提出了更高的要求。此外,数据安全和隐私保护也是不可忽视的问题。
为了应对这些挑战,芯原正在积极研发新的技术和解决方案,推出了AI-Computing处理器和软件框架,包括Acuity工具、库和软件堆栈等,以优化大模型在边缘设备上的性能和效率。
芯原的AI-Computing处理器技术具有可编程、可扩展、高性能和低功耗等特点,非常适用于边缘设备运行大模型,如AIPC、医疗系统设备以及计算机和工业应用领域等。目前,芯原已经推出了一系列AI-Computing IP产品,包括数据中心、边缘服务器等,以满足不同场景的需求。
在软件框架方面,芯原提供了全面的Acuity工具、库和软件堆栈,为开发者提供了便捷的开发环境。同时,芯原还积极探索边缘与云协同计算的模式,通过Project Open Se Cura项目,实现了大模型和轻量大模型在边缘设备上的高效运行。值得一提的是,芯原的技术还被应用于谷歌眼镜等先进设备中,实现了极低功耗、常开和环境计算等功能。
此外,随着大语言模型在云端和移动设备上的广泛应用,芯原的技术也在这一领域发挥了重要作用。大语言模型的主要组件可以利用芯原的技术实现捕捉、信号和感知信息的评估和融合,进一步提升了模型的性能和准确性。
目前,芯原正在与谷歌等合作伙伴共同探索边缘与云协同计算的可能性,以实现大模型的轻量化和高效运行。
从端到云的应用及资源
从最初的视觉、自然语言、图像到语音处理,芯原已经积累了128家客户,并在十个不同场景实现了技术落地。芯原NPU IP研发副总裁查凯南表示,随着AI技术的不断进步,芯原NPU的发展也呈现出三个主要方向:DEEP AI、嵌入式设备以及服务器中心。
在谈论从端侧到云端的模型分工时,查凯南强调,端侧设备在保护用户隐私方面扮演着重要角色。大型模型如今能够整理手机或笔记本电脑上的私人信息,使用户在无需感知的情况下享受智能服务,如情景智能。然而,由于算力、容量和带宽的限制,端侧的大模型通常规模在2B-13B之间。
除了语言模型,端侧还需要视觉模型、语音模型等,以满足图像生成、PPT改动和美图等多样化需求。为此,芯原推出了专门针对端侧的NPU VIP9X00和AI-GPU IP。
查凯南表示,芯原的NPU架构支持32位浮点运算,能够执行大量复杂的通用计算任务,从而满足多样化的AI应用需求。在软件生态方面,芯原NPU兼容OpenCL等通用标准,为开发者提供了广阔的开发环境和灵活性。
近年来,Transformer模型在人工智能领域异军突起,不仅在自然语言处理方面表现出色,更在视觉、语音等多个领域展现了卓越的性能。相较于传统的卷积神经网络,Transformer在效果上有着显著的提升。芯原在其最新的NPU架构中针对Transformer进行了专门的定制优化。这些优化措施包括但不限于4比特、8比特以及16×4、16×8等多种量化压缩方式,旨在将模型权重进行有效压缩,从而大幅降低带宽消耗。这对于边缘计算和移动设备来说尤为重要,因为它们通常面临着严格的能源和带宽限制。
此外,芯原还对通用的矩阵运算(如GEMM/GEMV)以及Transformer中所需的大量卷积运算进行了优化。这些优化措施直接提升了Transformer相关网络的性能,实现了高达10倍的性能提升。具体来说,在一个具备40-48TOPS算力的AI PC平台上,可以实现每秒处理20个Token的卓越性能。
转向云端,超级大模型成为主角,这些模型规模超过70B,甚至可能涉及数万张显卡的计算能力。这类模型必须支持多任务处理(Multi Serving)。查凯南认为,自然语言的一个显著优势是能够让端侧模型和语音端模型通过自然语言进行交互,而非传统的计算机数据交互。当手机和云端能够通过自然语言交互时,将彻底改变应用场景和智能效果。
为了解决端侧和云端的不同需求,查凯南进一步探讨了两者对NPU的特定要求。端侧更注重低功耗和优良的PPA(性能、功耗、面积)平衡。性能固然重要,但功耗和面积对于端侧IP来说更为关键。端侧NPU主要用于推理任务,并需要一定的浮点运算能力,同时关注低比特量化和压缩技术。
相比之下,云端NPU则强调高性能和高TOPS(每秒万亿次操作)能力,以支持推理和训练任务。这不仅涉及单卡推理训练,还包括分布式推理训练和多卡多机能力。因此,云端NPU更需要通用的GPGPU编程模型、高配比的浮点与定点算力,以及对高精度的支持。同时,接入大型生态系统也是云端NPU的重要需求。
除了硬件资源,软件生态也十分重要。查凯南介绍,在应用层,芯原的软件生态广泛支持多种框架,如PyTorch和Transformer,这些框架为开发者提供了丰富的工具和资源,使他们能够轻松地构建和训练复杂的AI模型。特别是对于大型模型,芯原选择了支持VLLM(Very Large Language Model)框架,以应对云端大语言模型的需求。
在软件栈的更深层次,芯原提供了一系列通用的加速库,包括算子加速库和运算图加速库,以及多核间通讯库。这些库能够显著提高AI运算的效率和性能。同时,底层支持标准的OpenCL、OpenVX等接口,确保了与各种硬件和编辑器的兼容性。
在AI工具链上,针对推理任务,芯原自研了推理Toolkit,该工具链可以直接导入所有类型的框架模型。它内部嵌入了量化功能,能够直接生成易于部署的二进制文件。此外,芯原还研发了适用于大语言模型的vLLM,并在云端提供了出色的支持。
为了满足更多开发者的需求,芯原还支持微软的ONNX Runtime,这是一个广泛使用的开源跨平台机器学习推理库。同时,芯原也支持各种流行的数据格式,为开发者提供了极大的便利。
在训练端,特别是对于云端GPU训练,芯原选择了接入Torch Dynamo Plugin来支持PyTorch,以及Transformer XLA Backend来支持Transformer模型。这些选择都是为了确保开发者能够高效地进行模型训练。
值得一提的是,芯原还计划支持Triton,这是一种编译器研究工具。Triton的出现为硬件厂商提供了一个新的介入点,使得不同的硬件可以通过编译的方式直接接入Triton。芯原也看到了这一点,并计划在2024年10月份完整接入Triton,以期打破某些技术壁垒,更开放地接入不同的高级语言。
大语言模型的原理与发展趋势
产业界一直广泛关注人工智能领域中大语言模型的发展。乌镇智库理事长张晓东就这一话题进行了深入阐述,探讨了大语言模型的原理及其未来趋势。
张晓东首先引用了物理学家费曼的名言:“微积分是上帝的语言。”然而,他幽默地指出,如今“上帝的语言”似乎已变成了“图灵机”。他提到,图灵作为计算机科学和人工智能的奠基人,其贡献是不可估量的。整个计算机科学都建立在“丘奇-图灵论题”这一核心基石之上,即图灵机是最广义的计算装置。
谈及人工智能的火爆原因,张晓东提到了图灵1950年的文章《计算机与人工智能》,其中介绍的“模仿游戏”(现称图灵测试)为智能的定义提供了新思路。他解释说,当一个机器在长时间的问答中让人无法区分其与人类时,这个机器便被认为是智能的。随着深度学习的发展,尤其是Hinton2006年《深度学习》论文的发表,人工智能首先在语音领域取得革命性进展,随后又影响了图像和视频处理领域。
张晓东进一步指出,2022年11月30日ChatGPT的发布,更是对“人性”的一大挑战。他认为,语言是人性的核心,而ChatGPT正是在这一领域取得了显著突破。
在解释ChatGPT工作原理时,张晓东提到了1956年达特茅斯会议上的一个关键观点:学习可以看作是图灵机的求逆过程。他解释说,这实际上就是寻找一个能够生成特定输出的机器,即我们现在所说的生成式AI。此外,他还提到了所罗门诺夫在1964年的研究,该研究证明了所有学习问题都等价于归纳法,且与图灵机求逆等价于下一个Token预测。
一个有意思的对比是谷歌和OpenAI在Transformer技术上的应用。张晓东指出,虽然谷歌最早发明了Transformer,但最终是OpenAI通过GPT系列模型取得了显著成功。这背后的原理和对技术的深入理解是成功的关键。
回顾人工智能的三大发展路线:逻辑主义、联结派以及从细胞自动机到强化学习的演进,张晓东特别指出,强化学习可以用所罗门归纳来解释,这一领域的突破已经催生了如AlphaGo这样的杰出成果。随着技术的迅猛发展,大语言模型的进化速度已经达到了“周”级别,每隔几周就会有新的技术突破问世。
在谈到深度学习的理论基础时,张晓东引用了Kolmogorov-Arnold叠加定理,该定理证明了三层以上的神经网络可以逼近任意连续函数。这意味着从理论上讲,深度学习能够无限精度地逼近人类所能完成的任何任务。然而,他也提到,在神经网络的优化和压缩方面,学术界和工业界仍存在不少争议和探讨。
张晓东还分享了关于神经网络计算的新思路,即将计算从“点”上转移到“边”上,尽管这一想法仍面临诸多挑战,但它为未来的神经网络设计提供了新的视角。
在探讨大语言模型的发展趋势时,张晓东提到了当前科技界的一些热议话题,包括OpenAI团队的变动以及训练大型模型所需的巨大成本。他特别强调了能耗问题,指出随着模型规模的扩大,训练所需的能耗也在急剧增加。然而,他也表示,根据Koomey定律,随着技术的进步,同等算力所需的能耗将会逐年下降,这为未来的大型模型训练提供了一线希望。
没有人怀疑,1956年达特茅斯会议提出的问题至今仍然有着深刻的启示,人工智能领域的发展将在未来见证更多激动人心的技术突破。
AI-ISP的关键技术与应用实践
在人工智能与图像处理交融的今天,AI-ISP(人工智能图像信号处理器)技术正成为推动成像质量提升的关键力量。
传统成像过程仅针对特定谱段进行感知,随后需要大量计算来修正和处理这些感知到的能量信号。这主要是因为成像系统面临多重挑战,包括成像光学系统的局限性、器件物理特性的限制,以及人眼视觉感知的非线性等。传统ISP系统采用“分治法”来处理这些问题,即将各种图像畸变分类,然后逐一设计算法进行校正,最后组合起来解决问题。
电子科技大学教授顾舒航指出,随着计算资源的日益丰富,工程界或许可以寻求更加数据驱动的方法。在过去,当计算资源有限时,人工智能算法可能并不如传统的手工设计方法有效。但现在,随着计算能力的提升,机器学习的方法有可能达到甚至超越传统方法的效果。因此,在计算资源更加充裕的今天,可以考虑采用新的策略来优化ISP系统。这一观点为AI-ISP技术的发展提供了新的思路。
AI-ISP的实现涉及5个关键技术:
l领域特定架构(DSA):在构建AI-ISP的硬件架构时,既可以考虑与传统ISP架构的一致性,以优化内存使用和处理效率;同时,也可以借鉴传统方法的丰富经验,特别是那些反映物理事实的经验,来完善AI-ISP的设计;
l硬件感知算法设计:这一技术旨在确保算法与硬件的紧密集成,从而实现更高效的图像处理;
l数据工程与无监督训练:利用数据工程方法来处理大规模图像数据,并结合无监督训练技术,使网络能够自我学习和优化;
l神经网络优化与量化技术:通过对神经网络的优化和量化,可以在保持性能的同时降低计算复杂性和资源消耗;
l可控神经网络:这种网络能够实时反映成像环境的变化,并根据用户的影像需求进行调整,从而实现更加个性化和灵活的图像处理。
顾舒航表示,他和他的团队负责了哲库第一代SoC ISP系统的算法部分,成功完成了整个开发流程,并送出了流片。此外,在显示系统中,他们实现了功耗更低的AI算法,使其可以“常开”。回到电子科技大学后,该团队与芯原公司合作,针对安防场景开发了一种AI暗光去噪技术,该技术已成功商业化落地。
尽管取得了不错的进展,但AI-ISP还有需要不断优化和升级。顾舒航表示,他的团队正在几个方向深化研究:
底层技术优化:尽管Transformer架构带来了一些收益,但它对应用并不十分友好。因此要超越其“切块”处理的局限,实现全图自相关性的计算,同时保持对硬件的友好性;
生成式模型:他们正在研究生成式模型的快速推理,以生成多维度的细节。这对于消费电子等领域具有巨大价值。该团队的初步成果已经显示出比传统方法更大的优势;
激进的量化策略:他们正探索以最小的介入实现更好的数据质量,从而提升整体性能。如果其ISP得以成功实施,它可以与各种上游任务相结合,为压缩、传输和存储带来革新。
顾舒航认为,在自动驾驶等场景中,生成式模型的应用将更具潜力。例如,道路两侧的建筑物数据可以完全通过生成式模型来填补,从而大幅降低数据流通路的需求,为下游处理减少存储压力,进而降低成本。
AI-ISP技术已经在图像处理领域展现出巨大的潜力和应用价值。通过不断优化关键技术和探索新的应用场景,AI-ISP将在未来发挥更加重要的作用。
具身智能的机会与挑战
“具身智能”与传统智能有着本质的不同。它特指那些能够自主移动的智能终端,这些终端必须具备空间计算能力,以感知和适应物理世界。然而,过去的具身智能产品往往在智能程度上有所欠缺,在泛化性和普适性方面仍有待提高。神顶科技(南京)有限公司董事长、CEO袁帝文认为,大模型与3D空间计算技术的结合为具身智能的发展注入了新的动力。
袁帝文表示,空间计算技术的核心在于对环境的感知。物理世界是三维的、充满多模态信息,因此需要多模态算法的支持。同时,与物理世界的交互也必须是3D的。这种交互不仅仅局限于人与机器之间,更包括机器协助我们完成各种实际任务,如抓取鸡蛋、收拾碗盘或折叠衣物。在这里,3D技术显得尤为重要,而空间计算技术也需要与大模型AI技术紧密结合,二者协同作用,共同推动具身智能的进步。
具身智能终端的应用场景广泛,包括工业机器人、人形机器人、自动驾驶、低空飞行以及智能家居等。神顶科技已经成功商业化落地了一系列消费级机器人产品,如擦窗机器人、四足机器人等。袁帝文表示,这些机器人在实际应用中面临着各种挑战,如水下机器人的方向辨识和视觉挑战,以及泳池机器人在清洗过程中可能遇到的污泥困住或被排水口吸入等问题。这些都对物理环境的感知提出了极高的要求。同时,机器人在做决策和判断时,也需要AI的辅助。大模型的应用使得机器人的普适性得到了显著提升。
袁帝文指出,大模型的发展不仅推动了PC和手机行业的进步,更为机器人技术带来了革新。机器人作为一个综合性的终端,不仅需要具备PC和手机的基本功能,还要能够感知和适应物理世界。这就要求机器人必须具备多模态大模型的支撑,以应对不同场景的适应性需求。
在机器人的AI算法部署方面,人机交互、环境理解和感知、决策和规划以及运动控制等环节都离不开大模型的支持。特别是随着三维重建和物理环境感知技术的日益重要,端到端和全端到端的技术发展趋势也备受关注。
然而,大模型在机器人领域的应用并非易事。袁帝文强调,3D空间计算技术与大模型技术需要相互耦合、相互协作。多模态大模型与空间计算的分工与协作,是当前产业面临的一个重要课题。此外,机器人对大模型的需求还体现在对传感器的支持上,包括视觉、听觉、触觉等多种传感器,这对多模态大模型提出了更高的要求。
在面对这些挑战时,端侧芯片的设计显得尤为重要。袁帝文提出了两个关键技术方向:一是高实时性NPU,通过提升算力、优化Transformer运算、低比特量化和权重压缩等手段,提高实时处理能力和多任务处理效率;二是3D空间计算处理能力,通过深度计算引擎和感知融合引擎,实现更高质量的三维世界感知和多传感器融合。
神顶科技是亚洲第一家量产的具身智能3D空间计算芯片提供商,据袁帝文介绍,该公司研发的3D空间计算芯片能够支持不同的应用场景,并根据实际需求灵活采用不同的传感器组合,确保机器人在各种环境下都能保持出色的感知能力。该芯片还支持低成本传感器,有效减少对高性能传感器的依赖,从而大幅降低系统成本,为更广泛的机器人应用铺平了道路。
值得一提的是,该芯片还支持异构传感器融合,能够轻松解决raw data的融合问题。这一功能使得机器人能够更准确地感知和理解周围环境,为后续的决策和行动提供坚实的数据基础。
除了上述特性,神顶科技的3D空间计算芯片还提供了丰富的功能,包括三维重建、深度估计以及感知融合等。这些功能不仅支持不同的3D感知技术和空间定位技术,还是多传感器融合这一3D空间计算基石得以实现的关键。
机器人正逐渐从数字世界走向物理世界,而这一过程离不开高效、精准的感知和计算能力。最近,业内频频提及“物理AI”的概念。袁帝文强调,在当今这个物理AI逐渐崭露头角的时代,神顶科技的3D空间计算芯片与NPU的紧密协作显得尤为重要。神顶科技正积极与合作伙伴如芯原等携手合作,共同迎接物理AI带来的挑战。
面向AIGC布局平台和方案
随着大模型和AIGC的兴起,算力需求不断攀升,不仅在云端,边缘和终端也迫切需要AI算力的加持。芯原高级副总裁、定制芯片平台事业部总经理汪志伟表示,面向AIGC,芯原已经布局了一系列芯片设计平台和软件解决方案。
汪志伟强调,云端、边缘和终端在AI应用中各有侧重。云端注重高性能计算、大数据分析和海量数据存储;边缘则更偏向推理、实时决策和部分数据训练;而终端则聚焦于数据采集和智能数据处理。为满足这一系列需求,相应的硬件和芯片支持显得尤为重要。
芯原拥有从IP到芯片设计的一站式服务能力,其IP授权业务目前全球排名第五。芯原有六大类处理器IP,包括神经网络NPU、图形GPU、视频VPU、音频/语音DSP、图象信号ISP以及显示处理IP,这些都在AIGC相关芯片设计中发挥着关键作用。
目前,芯原的视频处理器市占率位居全球第一,已被全球前二十大云平台解决方案提供商中的12家采用。同时,其NPU全球累积出货量超过1亿颗,GPGPU搭载芯原IP的芯片出货量也接近20亿。此外,在数模混合方面,芯原支持从250nm到5nm的不同芯片工艺节点,并在各个方向都有深度合作。
在定制芯片服务方面,芯原每年协助客户设计超过30款芯片,早在2018年便成功实现了全球首批7nm EUV芯片的一次流片成功,并且已有多款5nm芯片顺利量产和流片。从28nm到5nm,芯原在各种先进工艺节点上积累了丰富的流片与量产经验。
谈及芯原的系统芯片设计平台如何助力AIGC芯片设计,汪志伟强调了SiPaaS系统级芯片设计平台的持续迭代与演进。他表示,该平台已经过多年的打磨和完善,支撑了众多芯片的设计与流片,积累了丰富的技术资源,能够适配不同的处理器架构、总线和存储器。这一深厚的技术积淀,使得芯原的一次流片成功率高达90%以上。更值得一提的是,芯原的服务已经从前端设计延伸至软件设计,为客户提供包括软件SDK在内的全方位解决方案。
在AIGC芯片设计方面,芯原为云端设计的所有芯片均与AI、AIGC紧密相关。其为客户设计的用于数据中心的高算力AIGC芯片,支持多核高性能CPU和GPGPU,并采用HBM3技术以满足大数据处理对带宽的苛刻需求。
面对数据中心对算力的不断增长需求,芯原提出了创新的Chiplet互联方案。通过设计支持4-6路接口的芯片,能够将4颗以上的芯片拼接在一起,从而大幅提升算力。同时,针对大面积芯片的设计挑战,芯原已经接近了掩膜极限的解决方案,通过Chiplet技术突破物理限制。
汪志伟强调,仅有硬件芯片还远远不够,充分挖掘硬件性能的软件同样至关重要。因此,芯原还为客户提供与硬件紧密结合的完整软件协议栈,从底层到中间层全面覆盖,以满足推理、训练等多样化需求,并解决芯片间、甚至板卡间的互联通信问题。
汪志伟特别介绍了芯原在汽车和手机两个领域的最新方案。在汽车端,该公司车规级芯片设计方面已通过车规安全认证,并设计出可支持300-500 TOPs算力的自动驾驶芯片,提前集成基础软件以缩短整车开发时间。同时,芯原也解决了大算力芯片良率问题,通过Chiplet技术扩展算力,提供从芯片到IP的一揽子解决方案;在手机端,芯原设计了用于手机的AI ISP芯片和与谷歌合作的低功耗安全智能传感芯片。