• 正文
    • 全新Armv9边缘AI计算平台
    • 全新的超高能效CPU Cortex-A320
    • 克服碎片化
  • 相关推荐
申请入驻 产业图谱

全球首个Armv9边缘AI计算平台发布

03/06 16:00
801
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

边缘人工智能作为将AI能力下沉至终端设备的核心技术,虽然在实时性、隐私保护和带宽节省方面具有显著优势,但其工作负载和场景应用仍面临多重挑战。

首先是计算资源有限与模型优化的矛盾。边缘设备的计算能力、存储容量和内存资源远低于云端服务器,这限制了复杂AI模型的部署。例如,许多边缘设备(如传感器摄像头)需运行轻量化模型,但模型压缩(如量化、剪枝)可能牺牲精度。此外,专用硬件(如NPU)的普及尚未覆盖所有场景,导致部分设备难以高效处理高算力需求的任务(如生成式AI)。

工业自动化为例,实时监测设备故障需要高精度模型,但边缘设备的算力可能无法满足需求。又如在智能交通系统中,复杂的环境感知算法需在低功耗硬件上运行,需平衡性能与资源占用。

能源效率与功耗管理也是一个困扰。多数边缘设备依赖电池供电,而AI模型的高能耗可能缩短设备寿命。例如,连续运行的智能摄像头需在低功耗模式下完成视频分析,这对芯片设计和算法优化提出了更高要求。尽管低功耗芯片和能效优化算法有所发展,但实际应用中仍需在性能与能耗间权衡。

另一个压力来自数据安全与隐私保护。尽管边缘AI减少了数据上传云端的需求,但本地设备仍面临物理攻击(如传感器篡改)和网络攻击(如中间人攻击)。例如,医疗设备中的患者数据若未加密存储,可能因设备失窃导致隐私泄露。此外,边缘设备的安全认证机制尚未全面普及,也进一步加剧了风险。

因此,在边缘侧解决这些痛点已迫在眉睫。

全新Armv9边缘AI计算平台

近日,Arm推出了全球首个Armv9边缘AI计算平台,该平台以全新的Arm Cortex-A320 CPU和对Transformer网络具有原生支持的边缘AI加速器Arm Ethos-U85 NPU为核心,可支持运行超10亿参数的端侧AI模型。

Arm物联网事业部业务拓展副总裁马健表示,该边缘AI计算平台不是CPU和AI加速器的简单堆叠,而是实现了深度配合,让CPU和NPU相得益彰。Cortex-A320可为Ethos-U85提供更高的内存容量与带宽,让大模型在Ethos-U85上的执行如虎添翼。任何开发者们不希望在Ethos-U85上运行的AI操作,可以回退到Cortex-A320,利用其Neon/SVE2引擎更灵活有效地在CPU上执行。这使智能物联网与消费类电子生态系统能够在正确的时间,并在合适的地方运行最适合的工作负载。Arm相信,这一创新将推动边缘AI领域在未来多年内的持续发展。

该全新平台将覆盖多个应用场景,实现包括视觉和自然语言在内的多模态的环境感知与理解,进而运行智能体AI、自主规划、执行复杂任务。该平台具备强大的计算能力,比去年的基于Cortex-M85搭配Ethos-U85的平台提升了八倍的ML计算性能,带来了显著的AI计算能力突破,可以赋能边缘AI设备轻松运行超过10亿参数的大模型,助力大模型与生成式AI在物联网领域的落地。

去年Arm推出的集成了Cortex-M85和Ethos-U85的Arm Corstone物联网参考设计平台,显著提升了端侧Transformer网络的执行效率。如今,Ethos-U85驱动程序已经更新,使得Cortex-A320能够直接驱动Ethos-U85,无需额外搭载Cortex-M。这一更新降低了延迟,并使Arm的合作伙伴可以去掉用于驱动AI加速器的额外控制器,从而降低成本和系统复杂性。

全新的超高能效CPU Cortex-A320

从Arm发布的信息看,此次全新发布的Cortex-A320是首个专为物联网优化的,基于Armv9架构的超高能效CPU。相较于前代产品Cortex-A35,ML性能提升高达10倍,标量性能提升了30%。其能效比较Cortex-A520提升了50%。Cortex-A320充分利用了Armv9增强的安全性和AI计算特性,这些特性已经在其他市场得到广泛应用,而Arm现在也将其引入物联网领域。

在安全性方面,Cortex-A320引入了多项安全特性,包括Secure EL2,它增强了TrustZone内部的隔离性,支持更安全地运行软件容器;指针验证/分支目标识别(PACBTI),这一特性有效缓解了跳转和返回编程中的指针安全隐患;内存标记扩展(MTE),通过内存标记机制,使得黑客更难利用软件漏洞进行攻击,从而显著提高了整体系统的安全性。

与此同时,Cortex-A320在AI计算能力方面也实现了显著提升,增强的Neon和SVE2技术,提供更高效的ML计算能力;同时,它还支持新的数据类型,如BFloat16,进一步提高了AI计算的精度和能效;此外,新增的矩阵乘法指令优化了AI和ML计算性能,加速了神经网络推理和训练任务。

在软件兼容性与生态方面,Armv9架构的优势明显:支持Armv9架构的软件可无缝运行在所有这些处理器上,极大降低了物联网服务部署与交付的总体拥有成本(TCO)。此外,开源操作系统项目和编译器已支持Armv9的特性,进而大幅缩短产品开发周期。不仅如此,软件发行版本在整个Armv9架构设备内也保持兼容,这不仅简化了开发流程,同时也减少了物联网生态伙伴在解决方案交付上的整体成本。

具备灵活性是边缘AI计算平台的刚需,使工作负载既可以运行在CPU,也可以运行在AI加速器。例如,在连续图像检测任务中,通常会优先在AI加速器上运行,以提高能效。

然而,对于单张图像的处理,在CPU上执行可能更高效。而对于在CPU上运行的AI任务,开发者希望能够获得最优的性能,这正是Arm Kleidi发挥作用之处。

Arm去年推出了Kleidi软件库,并将其引入了智能手机和服务器市场,包含优化 AI 负载在Arm CPU上执行的KleidiAI和加速机器视觉的KleidiCV。如今,Arm也将Arm Kleidi扩展到了物联网。

KleidiAI是一套专为AI框架开发者设计的计算内核,让开发者可以无缝地在Arm CPU上获取最佳性能,适用于各类设备。它支持如Neon和SVE2等Armv9架构的关键特性,大幅提升了AI的计算效率。此外,KleidiAI已经集成到多个主流AI框架,包括Llama.cpp、ExecuTorch和LiteRT(通过 XNNPACK)。它可以加速Meta Llama 3和Phi-3等主流AI大模型,进一步释放AI计算性能。

灵活性也体现在对多种操作系统的支持。无论是如FreeRTOS和Zephyr的实时操作系统(RTOS),还是如Linux和Android的功能丰富的操作系统,Cortex-320都能提供高效支持。

Cortex-A320还为现有的物联网领域的Cortex-A产品提供了灵活的升级路径。无论是从Cortex-A35迁移,还是从全球出货量最高的基于Armv8架构的Cortex-A处理器Cortex-A53升级,Cortex-A320都提供了理想的Armv9迁移方案,并带来了众多优势,包括更先进的安全性、广泛的Armv9软件生态的支持,以及更高的计算性能。

克服碎片化

场景碎片化与标准化缺失一直是物联网系统开发需要克服的瓶颈。马健表示,Arm一直聚焦软件生态,过去几年中,Arm在IoT标准化方面推出了Arm SystemReady,希望在不同的IoT平台上可以支持各种主流软件和操作系统,确保“开机即用”。Arm SystemReady 项目在全球的推广非常成功,目前已经累计颁发了超过了 160 张认证。

在中国市场,去年11月Arm携手中科创达成立了中国大陆首个Arm SystemReady Devicetree合规实验室。该实验室融合了中科创达在操作系统和工程方面全方位的专业能力,以及Arm经过全球验证的SystemReady项目,为芯片厂商、OEM/ODM 厂商、系统集成商提供端到端的测试和技术支持服务,为智能设备启动固件的标准化,加速万物智能互联时代的到来。

同时,Arm与中国市场的本地认证机构进行了深度合作,推广PSA Certified认证。获得PSA Certified认证后,产品通过欧美市场的电子产品认证流程将更为顺畅,为中国芯片和电子产品出海提供了一条便捷的通道。目前,截至目前,全球已有101家企业成功取得PSA Certified认证,其中累计获得认证数量已达241项。许多中国的合作伙伴也通过了PSA Certified认证,包括瑞芯微的RK3588/RK356X系列芯片、涂鸦智能的TS24-U模组等。

结语

展望未来,AI的未来趋势将转向边缘,这一点是显而易见的。全新Arm边缘AI计算平台将成为新一轮物联网创新的催化剂。Armv9架构的特性、先进的AI功能和全面软件支持的结合,将为OEM厂商和开发者创造新的可能性。

点赞
收藏
评论
分享
加入交流群
举报

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录