• 正文
    • 为何要将Armv9引入边缘AI?
    • 全新Cortex-A320为下一代AIoT设备奠定安全基础
    • Cortex-A320 +Ethos-U85:边缘AI的理想组合
    • 将Arm Kleidi扩展到物联网
    • 写在最后
  • 相关推荐
申请入驻 产业图谱

专为物联网优化的Armv9边缘AI计算平台,将如何重新定义边缘AI?

原创
03/07 18:21
1278
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

AI革新浪潮席卷而至,众多行业正经历深刻变革。传统云端AI受限于带宽、延迟和隐私问题,难以满足实时性要求,使得边缘AI需求呈爆炸增长之势。

“推理是AI释放价值的关键,AI推理将从云端下沉至我们身边,无处不在。对于芯片硬件玩家来说,边缘侧形态各异的设备与丰富用例,将带来更多激动人心的机会”,Arm物联网事业部业务拓展副总裁马健表示。

日前,Arm正式发布了全球首个Armv9边缘AI计算平台,该平台以基于Armv9架构的超高能效CPU Arm Cortex-A320和Arm Ethos-U85 AI加速器为核心,可支持运行超10亿参数的端侧AI模型。这一平台的推出标志着边缘计算发展的重要里程碑,为物联网带来了先进的AI功能和开发者优势,该平台同时获得了包括亚马逊云科技 (AWS)、西门子瑞萨电子、研华科技和 Eurotech在内的多家生态合作伙伴支持。

为何要将Armv9引入边缘AI?

此次发布的Armv9边缘AI计算平台,相较于去年推出的基于Cortex-M85搭配Ethos-U85的平台提升了八倍的ML计算性能,带来了显著的AI计算能力突破。

在推出这款最新的边缘AI计算平台之前,Arm已有多款处理器在为多样化的边缘侧设备提供支持,为何还要将Armv9引入相同目标设备的处理器技术中?

事实上,在IoT环境中,边缘设备需求更胜以往,例如:智能摄像头需要在本地运行复杂的计算机视觉算法;工业传感器须处理复杂的机器学习模型以进行预测性维护;即使是端侧设备,也越来越离不开增强的安全性和虚拟化功能。此外,OEM厂商迫切需要快速推出解决方案,以应对不断攀升的计算需求,例如:自动驾驶车辆在工厂环境中的精准导航,以及构建能够提供更自然AI交互体验的人机界面……

正因如此,不论是设备本身,还是相关企业,这些不断变化的需求使得Armv9的先进功能不再只是锦上添花,而是新一代物联网创新的必备条件。

全新Cortex-A320为下一代AIoT设备奠定安全基础

作为Armv9边缘AI计算平台的核心组件,Cortex-A320作为基于Armv9架构的全新超高能效CPU,将Armv9架构的功能扩展到了IoT领域的高能效设备。

在ML性能方面,相较于前代产品Cortex-A35,Cortex-A320的ML性能提升了十倍,标量性能提升了30%。此外,其能效比较Cortex-A520提升了 50%,进一步降低了功耗。

Cortex-A320充分利用了Armv9增强的计算特性和安全性。计算特性方面,增强的Neon和可伸缩向量扩展(SVE2)技术,能够提供更高效的ML计算能力;对包括BFloat16等新数据类型的支持提高了AI计算的精度和能效;新增的矩阵乘法指令则优化了AI和ML计算性能,加速神经网络推理和训练任务。

此外,Cortex-A320还引入了多项Armv9高级安全功能,包括指针验证(PAC)、分支目标识别(BTI)和内存标记扩展(MTE)。

其中,由于大部分软件漏洞仍与内存安全问题相关,通过MTE功能有助于检测和减少 C/C++ 程序中常见的内存安全漏洞。通过对内存分配进行标记,并在访问时检查这些标记,MTE可以识别并防范潜在的安全漏洞。PAC通过确保函数指针和返回地址的完整性,为系统增加了一层额外的安全保护,以减少攻击者利用软件漏洞的机会。而BTI则是通过确保间接分支仅指向有效位置,来保护系统免受控制流攻击。

此外,由于虚拟化技术可高效利用资源并改善不同工作负载间的隔离性,Cortex-A320支持的Secure EL2 (S-EL2)虚拟化,增强了TrustZone内部的隔离性,支持更安全地运行软件容器,这对多用户环境及云计算、边缘计算场景中维护数据完整性与机密性很重要。

这些改进使Cortex-A320成为IoT设备的理想计算平台,能够高效执行复杂的边缘AI任务,同时保证系统的安全性、可靠性和数据完整性。

Cortex-A320 +Ethos-U85:边缘AI的理想组合

随着边缘AI负载变得越来越复杂,对支持更大规模、多模态AI模型的硬件需求不断增长,系统的内存需求也在迅速提升。因此,为了满足更复杂的应用场景,具备更高内存访问性能的系统变得尤为必要。

马健指出,Cortex-A 处理器正是为此而设计,相比 Cortex-M,它支持更大的可寻址内存空间,并能够更灵活地管理多层次内存访问延迟。此外,传统的Cortex-M一般只能支持实时操作系统,而Cortex-A320 具备支持多种操作系统的能力,无论是如 FreeRTOS 和 Zephyr 的实时操作系统 (RTOS),还是如 Linux 和 Android 的功能丰富的操作系统,都能提供高效支持。Cortex-A320与Ethos-U85这一组合,成为了运行大模型及需要更高软件灵活性的边缘AI任务的理想选择。

其中,作为边缘AI计算平台的另一核心,Ethos-U85是Arm Ethos-U产品线中的第三代NPU,也是迄今为止性能和能效最强的Ethos NPU。最新的Ethos-U85可支持 Transformer 架构网络,在1GHz时,算力可支持从256 GOPS到4 TOPS,满足多种设备需求。目前,驱动程序更新后的Ethos-U85可由Cortex-A320直接驱动,无需额外搭载Cortex-M。这一更新降低了延迟,并降低了系统复杂性和成本。

此外,在可预见的未来,多模态AI模型正在成为AI发展的必然趋势,因为它使AI能以更贴近人类感知世界的方式为我们服务。

对此,马健认为,多模态AI模型的发展将推动AI助手等应用更加自然和便捷,例如通过语音和视觉模态的结合,用户可以更自由地与设备交互。在产品布局方面,此次发布的以Cortex-A320+Ethos-U85为核心的边缘AI计算平台已在智能视觉方面有很多的应用。此外,Arm在整个视觉方面已有比较成熟的解决方案,比如通过GPU和ISP(图像信号处理)进行图像处理,具备很强的优势。

将Arm Kleidi扩展到物联网

“真正的边缘AI计算平台需要灵活性,使工作负载既可以运行在CPU,也可以运行在AI加速器上。例如,在连续图像检测任务中,通常会优先在AI加速器上运行,以提高能效;而单张图像的处理,在CPU上执行可能更高效”,马健在谈及提升边缘AI开发效率时表示,“对于在CPU上运行的AI任务,开发者希望能够获得最优的性能,这正是Arm Kleidi发挥作用的地方”。

为了简化边缘AI开发流程,Arm现已将Kleidi扩展到物联网领域。Arm Kleidi是一套面向AI框架开发者的计算库,旨在优化基于Arm CPU的AI和ML工作负载,无需开发者额外操作。KleidiAI已集成到多个主流AI框架中,如Llama.cpp和 ExecuTorch或LiteRT(通过XNNPACK),加速了Meta Llama 3和Phi-3等关键模型的性能。例如,在Llama.cpp上运行微软的Tiny Stories数据集时,KleidiAI为新的Cortex-A320带来了70%的性能提升。

在当今快速迭代的技术浪潮中,产品的上市速度已成为决定其市场成败的关键因素。Arm此次推出的边缘AI计算平台确保了与更高性能Cortex-A处理器在软件层面的无缝兼容。这种高度的可扩展性让开发者能够根据不断变化的需求灵活调整解决方案。借助庞大的Armv9生态系统,以及与Linux等功能丰富的操作系统和Zephyr等实时操作系统的兼容性,开发者拥有了前所未有的灵活性。

写在最后

Arm此次发布的全新边缘AI计算平台有望成为新一轮物联网创新的催化剂。在Armv9架构、先进的AI功能和全面软件支持的加持下,OEM厂商和开发者正在获得更多AIoT领域技术创新的可能性。

Arm认为,这不仅仅是一次渐进式的进步,而是代表着行业对边缘计算和AI处理方式的根本性革新。这也是行业首次迎来专为物联网应用优化的Armv9 CPU,通过将超高能效与先进AI能力结合,Armv9边缘AI计算平台将会实现前所未有的技术突破,进而助力物联网领域未来的创新与转型。

Arm

Arm

ARM公司是一家知识产权(IP)供应商,主要为国际上其他的电子公司提供高性能RISC处理器、外设和系统芯片技术授权。目前,ARM公司的处理器内核已经成为便携通讯、手持计算设备、多媒体数字消费品等方案的RISC标准。公司1990年11月由Acorn、Apple和VLSI合并而成。

ARM公司是一家知识产权(IP)供应商,主要为国际上其他的电子公司提供高性能RISC处理器、外设和系统芯片技术授权。目前,ARM公司的处理器内核已经成为便携通讯、手持计算设备、多媒体数字消费品等方案的RISC标准。公司1990年11月由Acorn、Apple和VLSI合并而成。收起

查看更多
点赞
收藏
评论
分享
加入交流群
举报

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录