加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 筑基端侧AI,Arm重新定义“智能性”
    • Arm终端CSS为消费电子AI带来跨越式提升
    • CPU集群出击,加速AI在移动设备发展
    • 新GPU释放消费电子游戏和AI创新潜能
    • 在各类软件平台上解锁Arm CPU的AI性能
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

深度|端侧AI面临考验,芯片IP更需系统级设计

06/25 19:03
1583
阅读需 26 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

AI应用复杂性的提升,带来了终端计算需求的指数级增长,芯片开发设计面临全新挑战。系统级芯片 (SoC) 设计人员、OEM 厂商和软件开发者需要更好的灵活性和更多的选择,来确保各类消费设备都能够经受未来考验。

对于芯片IP提供商来说,挑战也是前所未有的:既需要不断推动技术边界,确保IP核能够支持最新的计算需求;同时,还要为合作伙伴提供必要的工具和支持,帮助他们快速开发出创新产品,满足市场对智能设备日益增长的期望。

筑基端侧AI,Arm重新定义“智能性”

Arm近期推出了最新的计算平台—— Arm终端计算子系统 (Arm CSS for Client),标志着Arm在终端领域的一次重大创新。这是Arm首次在终端领域为CPU和GPU提供物理实现。此外,还有最新的 CoreLink系统互连和系统内存管理单元 (SMMU),以及同步推出的 Arm Kleidi 软件库。终端CSS旨在简化基于Arm架构解决方案的构建,确保解决方案的可靠性,同时Kleidi库则能帮助软件开发者无缝获得Arm CPU的最佳性能。

值得注意的是,Arm终端CSS针对最新的3纳米工艺节点进行了优化,并结合了Armv9架构的AI优势。Armv9架构自2021年推出以来,专注于提升性能和AI能力,在矢量加速、机器学习(ML)等方面增强了计算能力,同时提高了系统的安全性和稳健性,并特别增加了面向AI的功能。在Armv9.2成功的基础上,Arm 终端CSS通过全新的Cortex-X CPU和Immortalis GPU,提供了全球领先的高性能和以效率为核心的解决方案。

Arm 终端事业部智能手机市场高级总监 Steve Raphael强调,智能手机一直引领着开发者进行创新并突破平台限制,游戏和成像技术驱动着对更高效性能的要求,同时还要满足新的消费者用例需求。AI 正向着另一个方向突破计算的极限,并创造出大量新的应用。Arm致力于提供完整的解决方案,实现更高的CPU和GPU性能,并投资于未来数代的 Arm终端CSS。

“为此,我们与领先代工厂密切合作,并确保我们的平台与前沿工艺节点紧密结合。Armv9 将持续演进,增加更多的AI和安全功能,以确保我们能够面向未来持续创新”, Steve Raphael补充。

Arm终端CSS为消费电子AI带来跨越式提升

智能手机领域,采用Armv9 CPU的高端AI智能手机正成为市场新宠。比如vivo X100系列、三星Galaxy S24和Google Pixel 8等旗舰手机。而随着AI应用越来越复杂,计算需求不断上升,Arm推出的最新Armv9.2 CPU集群,提供了更强大的性能和更高的能效。这些技术进步不仅适用于高端智能手机,还能扩展到AI PC、主流手机、XR设备和可穿戴设备等各类消费电子产品,也显示了Arm推动AI普及的决心。

Armv9.2 CPU系列新增了性能强劲的Cortex-X925 CPU和持续提供高效能的Cortex-A725 CPU,同时更新了Cortex-A520 CPU,以更好地满足低强度工作负载的能效需求。此外,DynamIQ Shared Unit (DSU-120)的更新,进一步降低了功耗并缩小了占用空间,这些技术都被集成到了新的Arm终端CSS中。这些都表明Arm在提升智能手机及其他设备的AI处理能力方面,正不断取得突破。

其中,Cortex-X925(内部代号为Blackhawk),是Arm迄今为止同比性能提升最为显著的Cortex-X系列产品。它不仅在单线程性能上实现了36%的跃升,AI性能也提高了46%,为高端智能手机和其他消费电子设备带来了前所未有的计算能力。

而Cortex-A725则专为需要持续高性能的关键AI和游戏场景进行了优化。与前代Cortex-A720相比,Cortex-A725实现了35%的性能效率提升和25%的能效提升。

同时,Cortex-A520也针对Arm终端CSS进行了更新,提供了比TCS23中的Cortex-A520更高的能效,效率提升了15%。

通过上述更新,Arm能够为不同细分市场提供更加优化的CPU解决方案。当然,这还离不开针对新一代用例和消费电子设备体验进行了强化的DSU-120。得益于此,典型工作负载的功耗显著降低 50%,并且整个CPU集群的缓存未命中功耗降低60%,从而减少漏电并延长设备的电池寿命。

Arm 终端事业部产品管理总监 Steve Hopper指出,终端CSS是Arm面向安卓的最快速的计算平台,与TCS23平台相比,它在关键基准和一般计算用例方面取得了显著改进。其中包括:

  • 通过 Geekbench 6 单核分数测量可知,得益于新的 Cortex-X925,峰值性能提高 36%;
  • 在前十大应用中,五款应用的平均启动时间加快了 33%,不仅提高了生产力,也带来了流畅的移动体验;
  • 通过 Speedometer 2.1 浏览器基准测量时,网页浏览速度加快了 60%;
  • 在包括光线追踪和可变速率着色 (VRS) 基准等七项图形基准中,峰值图形性能平均提高 30%。

不仅如此,Arm 终端 CSS 也在持续突破移动设备的边界。为此,Arm设计了从 IP 到软件的整个平台,以提供出色能效,从而实现更久、更丰富的移动体验。

此外,3nm成为最重要的突破和亮点之一。虽然3nm将实现性能和效率的提升,但挑战也随之而来。具体表现在:软IP方面,越来越复杂的微架构增加了在3nm工艺上优化PPA的难度;其次,在3nm工艺上管理电压调节和 di/dt 缓解变得具有挑战性;第三,为了真正针对3nm进行优化,软IP必须考虑目标工艺节点以优化PPA。

为应对这些挑战,Arm推出开创性的3nm物理 IP 解决方案与终端CSS RTL同步设计,以帮助合作伙伴实现高性能。

Steve Hopper表示,Arm终端 CSS将被应用于3nm工艺上的第一代旗舰高端安卓芯片组。要充分释放先进3nm工艺节点的潜力,需要在计算平台的不同层次上进行创新。

为此,终端CSS需要优先考虑四个关键领域:第一,突破性能边界以处理要求苛刻的安卓实际工作负载;第二,针对生成式AI以及更广泛的AI/ML和计算机视觉工作负载提高性能;第三,持续专注于实现两位数的系统能效提升;第四,扩展平台以获得更高的性能点,满足新一代 AI PC 设备的需求(包括笔记本电脑平板电脑)。

“随着向3nm工艺的转变,预计合作伙伴将推动Cortex-X CPU的频率超过3.6GHz——这是市场需求推动的重大飞跃”, Steve Hopper介绍,“Arm的物理IP解决方案一直与IP解决方案同步发展。在过去的几代产品中,Arm为合作伙伴提供了物理IP交付成果,主要包括:针对特定处理器和工艺节点进行优化的单元库和快速缓存实例、处理器优化包 (POP)等。凭借终端 CSS,Arm正在将物理实现提升到新高度,通过与合作伙伴共同开发一系列物理IP解决方案,充分发挥3nm的潜力。”

大模型的端侧应用也将受益于终端CSS的改进,当运行 Llama 3 LLM 和 Phi-3 LLM时,该平台可将词元 (Token) 首次响应时间分别缩短 42% 以及 46%。这意味着移动端LLM的性能将进一步得到提升,端侧生成式AI的体验也将得到持续优化。

CPU集群出击,加速AI在移动设备发展

自2020年推出Cortex-X系列以来,Arm专注于提升单线程性能,并在过去四代产品迭代中实现了这一目标。今年,Arm以更大胆的创新理念,综合考虑IPC、频率、编译器、OS、封装等因素,革新了Cortex-X CPU设计,实现了性能、功耗和面积(PPA)的领先表现,使其不仅适用于当前这一代产品,也能够适应未来数年的终端设备与应用的发展。

首先,Cortex-X925的推出,标志着Arm CPU性能的一次巨大飞跃,实现了36%的单线程性能提升和46%的AI性能提升,是Cortex-X有史以来最大幅度的IPC同比提升。而Cortex-A725则实现了性能与效率的最佳平衡,性能效率提升了35%。同时,Cortex-A520针对3nm工艺节点进行了优化,能耗节省了15%。此外,DSU-120也引入了新的功耗模式,降低了典型工作负载的功耗。

“需要强调的是,现实环境中的用例相当复杂,涉及多个 CPU 的相互作用,而我们致力于推动包括软件在内的全方位优化,实现了应用启动、网页浏览、游戏、AI和轻量级媒体处理等用例的显著性能提升,在大约40个指标上平均实现了30%的提升”,Arm 终端事业部高级产品经理Manish Pandey表示,“我们致力于交付一个全面的 CPU 集群,不仅要胜任新的计算密集型工作负载,还要能持续提供出色的性能和用户体验。”

Manish Pandey强调,集群解决方案是多维度的:第一个维度是“性能”, 得益于 Cortex-X925 在微架构上的重大突破,Arm实现了Cortex-X系列有史以来最大幅度的性能提升,从而可以满足AI等实际用例的需求。以Cortex-X925为基础,在先进工艺节点上实现3.8GHz,将使得下一代设备的Geekbench得分提高30%以上。对缓存大小、先进的功耗与热管理技术,以及更新运行时 (Runtime) 选择上的进一步投入,将共同推动设备性能的提升,其性能将比当前的高端设备高出36%。他补充,Cortex-X925 并不只是一个新的 CPU,而是今年拥有最卓越IPC性能的 CPU。

第二个维度是“效率”,而Cortex-A700系列是关键组成部分,至今已经发展了14代。该系列的研发团队过去曾开发了Cortex-A9(大约 20 年前的首个乱序执行CPU)和 Cortex-A73(迄今出货量最高的乱序执行CPU)。

基于这个设计理念,Arm推出了Cortex-A725,并将性能效率推向了新高度。 Cortex-A725将专注于满足AI和游戏体验的新一代用例,并针对3nm工艺节点进行了特别优化,以实现性能和能效的最佳平衡。与前一代相比,Cortex-A725的能效提升了25%,通过改进预取器和增大L2缓存,有效减少了对L3和DDR内存的带宽需求,为大型语言模型(LM)提供了更多的性能余量。

另一个效率方面的重要产品Cortex-A520,虽然微架构更新频率不高,但针对3nm工艺进行了重要更新,通过与ASIC/芯片团队的紧密合作,确保了在保持微架构稳定的同时,为合作伙伴提供了针对3nm工艺的高效解决方案。

DSU代表了集群解决方案的第三个维度,它类似于Patterson和Hennessy在《计算机体系结构》中所述的系统级整合概念,将Arm的所有IP整合在一起,确保它们能够高效协同工作,并且具备可扩展性,以适应不同的市场和应用需求。

DSU-120是今年的重点更新,它针对多种新用例进行了优化,特别是在性能、功耗和面积(PPA)以及功耗方面。为了进一步提升能效,DSU引入了中高切片断电模式和面向RAM的Quick Nap(QNap)模式,后者提供了一种介于完全运作和保留状态之间的能效优化选项。这些功能使Arm的合作伙伴能够在不牺牲性能的情况下显著降低能耗。DSU的设计允许根据用例的需求灵活调整规模,同时硬件自动化的引入有助于DSU中软件的优化。

通过CPU集群的优化,与前一代的Cortex-X4 CPU集群相比,新一代CPU集群在AI性能上提升了46%,提供了更快的响应速度和持续的高吞吐量。与TCS23 CPU集群相比,用户体验指标提升了30%,包括加速应用访问、网页浏览、提升游戏体验、延长电池寿命等。

“Arm在CPU设计上关注各个维度,包括性能、能效、软件兼容等。当我们以一种更为大胆的方式设计 Arm Cortex-X925 时,就已经考虑到如何从多维度入手,发挥出系统的最大性能。这绝不是单一因素的考量。我们专注于每时钟周期指令数 (IPC),以及物理解决方案、延迟系统、操作系统、编译器和封装等多个方面的投入。Arm 将一如既往地持续投入,以优化并解决此类多维度问题。”,Manish Pandey补充。

新GPU释放消费电子游戏和AI创新潜能

去年,Arm推出了第五代GPU架构及一系列新的GPU,包括 Arm Immortalis-G720 GPU。 MediaTek的天玑9300 SoC平台便采用了该GPU,之后,vivo和OPPO的旗舰智能手机都先后采用了该芯片。

最新推出的第二代基于Arm第五代GPU 架构构建的GPU 产品,成为 Arm 终端计算子系统 (CSS) 的重要组件。其中包括新的Immortalis-G925 GPU、Mali-G725 GPU和Arm Mali-G625 GPU,适用于从旗舰智能手机、高端手机,到智能手表、入门级移动设备等各类消费电子设备。这些 GPU 产品的设计重心是:作为手机游戏持续演进的一部分,实现沉浸式视觉体验;在主流应用中加速实现AI体验。

手游内容趋势的演变是 Arm 持续关注的重点,用以确保GPU能满足开发者和生态系统合作伙伴的需求。去年推出的 Immortalis-G720 在多数的图形基准测试中都以其峰值性能(每秒帧数, fps)和更长游戏时间的持续性击败对手。

而最新的Immortalis-G925性能 (fps) 比Immortalis-G720提高了37%。此外,在提供与 Immortalis-G720 相当的游戏性能时,Immortalis-G925的功耗降低了30%。在关键的手机游戏领域,与Immortalis-G720相比,Immortalis-G925的性能平均提升了46%。

为应对笔记本电脑、Chromebook 和游戏手机等各类消费电子设备市场日益增长的性能需求,Immortalis-G925 所支持的着色器核心数量增加了 50%,达到 24 个核心的最大配置,而上一代最多只有 16 个。

此外,Immortalis-G925具备硬件光线追踪,可配置 10 个以上的核心,适用于旗舰智能手机等高性能消费技术市场。Mali-G725 可在6~9个核心之间扩展,主要针对高端手机市场。此外,它还能提供与 Immortalis-G925 相同的 API 支持,同时为 Immortalis-G925 目标范畴以外的稍低级别设备提供引人入胜的沉浸式游戏体验。Mali-G625 可在一至五个核心之间扩展,适用于智能手表和入门级移动设备。

针对手机游戏日益精细的画面,复杂的片段着色技术被用来创造出更加逼真的物体和角色纹理效果,同时实现诸如光晕、模糊和高质量的基于物理着色等效果。

据安谋科技 (Arm China) 市场总监王刚介绍,自 Arm Immortalis-G715 引入光线追踪以来,这一技术已渗透到内容领域,帮助创建更逼真的阴影、反射和高级照明效果。

除了聚焦于提升GPU的性能和能效,Arm与游戏引擎厂商Unity等生态系统合作伙伴展开密切合作,以充分发挥出GPU的性能。

“Arm GPU 的定位是为合作伙伴面向广泛的终端设备市场赋能极致的视觉体验,通过 Immortalis-G925、Mali-G725 和 Mali-G625,Arm的目标是覆盖从旗舰到入门等不同级别的广泛消费电子设备”,王刚谈到,“我们看到越来越多的消费者与合作伙伴要求更加沉浸式的手游和AI体验,最新的Arm GPU就能够满足这些需求,提供更好的游戏和AI性能。这意味着,全球数百万开发者和数十亿用户将与基于Arm架构的设备进行交互,将获得更快、更沉浸式、更智能的视觉体验。”

在各类软件平台上解锁Arm CPU的AI性能

Arm Kleidi是一项广泛的软件和软件社区参与计划,旨在加速AI发展。其中的第一个举措是推出面向热门AI框架的Arm Kleidi软件库。这使开发者可以直接取得 Arm CPU 的出色 AI 功能,而如今全球从云端到边缘侧的大多数 AI 推理工作负载都在这些 Arm CPU 上运行。开发者可以借助 Arm 超过20年的架构创新,从 Armv7架构首次引入高级单指令多数据 (SIMD) 扩展以支持机器学习 (ML) 工作负载,到如今的Armv9架构在Arm CPU上囊括了加速和保护高级生成式 AI 工作负载的功能,这些创新持续推动着AI能力和性能的提升。

Kleidi软件库包含面向AI工作负载的KleidiAI和面向运行于Arm CPU上出色的计算机视觉工作负载的 KleidiCV。该软件库可以被直接嵌入到热门的AI框架中,开发者无需进行任何操作。如此一来,开发者可以轻松地启用Arm CPU的AI 功能,从而快速构建AI应用,并在更广泛的设备上实现出色性能。

据安谋科技 (Arm China) 开发者生态高级经理李陈鲁介绍,KleidiAI是由一系列高度优化的 AI 内核组成,可在生成式 AI 等用例中实现高性能,它并不会给开发者额外增加工作量,而是直接与领先的AI框架合作,包括 MediaPipe(通过 XNNPACK)、LLAMA.cpp、PyTorch(通过 ExecuTorch)和 TensorFlow Lite(通过 XNNPACK),以集成 KleidiAI。这不仅加快了开发流程,并释放了AI性能,为开发者提供了默认的高性能,使他们能够顺利地打造出色的AI体验。KleidiAI 还提供了前瞻的兼容性,随着更多技术的推出,将确保开发者能够充分利用未来AI加速机会。

KleidiAI 的集成已经为生成式 AI 工作负载带来了显著的性能提升。在新的Arm Cortex-X925 CPU 上,使用集成了KleidiAI的llama.cpp的Meta Llama 3 和微软 Phi-3 大语言模型 (LLM) 的词元 (Token) 首次响应时间加快了190%。

此外,WebGPU可以取代以前的WebGL等旧的API,通过网页端就能访问硬件的3D渲染能力,其典型用例包括开发网页游戏等,以及如今很多移动端应用程序内部都有网页元素,比如小程序等。

谈及Arm对WebGPU的贡献,李陈鲁谈到,具体是扩展了它的实现。Arm并没有对 WebGPU API的规范做任何修改,但在最后实现的部分加入了额外的信息和处理,从而让它在移动端的Arm Immortalis以及Mali GPU上运行时,能够充分地做到并行化,即几何处理和像素绘制的并行化,从而实现性能的巨大提升。

他补充,Arm Kleidi 的推出突显了Arm作为端侧生成式 AI 计算平台的领先地位。它使开发者无需学习额外的工具和技能,就能够在非常广泛的硬件中获得 Arm CPU 的出色AI性能。随着Arm不断创新,持续为新一代 AI 打造前沿架构,开发者未来将能够获得更强大、更先进的AI功能。对于最终用户来说,这意味着更快速、更智能、更具交互性、更沉浸式、更安全的出色 AI 体验。

Arm Kleidi 的推出只是一个开端,Arm未来还计划推出更多软件库、计算内核和引擎集成,让软件开发者持续在 Arm 平台上构建 AI 的未来。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
TMS320F28335PGFA 1 Texas Instruments C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85

ECAD模型

下载ECAD模型
$29.61 查看
STM32F429ZIT6XXXTR 1 STMicroelectronics IC,MICROCONTROLLER,32-BIT,CORTEX-M4F CPU,CMOS,QFP,144PIN,PLASTIC
暂无数据 查看
MCF5282CVM66 1 Motorola Semiconductor Products RISC Microprocessor, 32-Bit, 66.67MHz, CMOS, PBGA256,
$40.57 查看
Arm

Arm

ARM公司是一家知识产权(IP)供应商,主要为国际上其他的电子公司提供高性能RISC处理器、外设和系统芯片技术授权。目前,ARM公司的处理器内核已经成为便携通讯、手持计算设备、多媒体数字消费品等方案的RISC标准。公司1990年11月由Acorn、Apple和VLSI合并而成。

ARM公司是一家知识产权(IP)供应商,主要为国际上其他的电子公司提供高性能RISC处理器、外设和系统芯片技术授权。目前,ARM公司的处理器内核已经成为便携通讯、手持计算设备、多媒体数字消费品等方案的RISC标准。公司1990年11月由Acorn、Apple和VLSI合并而成。收起

查看更多

相关推荐

电子产业图谱

与非网资深行业分析师。主要关注人工智能、智能消费电子等领域。电子科技领域专业媒体十余载,善于纵深洞悉行业趋势。欢迎交流~