加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • Arm全面计算战略最新进展?
    • Cortex CPU集群性能再创新高
    • 基于第五代 GPU 架构,重新定义视觉计算
    • 内存标记扩展(MTE)应对内存安全挑战
    • 自下而上的安全加固
    • Armv9是未来,行业加速向64位迁移
    • 写在最后
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

深度|Arm史上最强移动计算平台,四大支柱剖析

2023/07/17
4781
阅读需 26 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

汹涌而至的数字化大潮中,核心底座无疑是芯片。以我们触手可及的智能手机为例,性能、智能化水平、视觉体验等,近些年都有了突飞猛进的发展。细想一下,这些其实都离不开手机芯片计算能力的不断提升。

Arm架构凭借高性能、高能效等优势已在手机生态取得全面成功,不过,放眼未来计算的复杂需求,Arm一直在不断突破计算平台的能力极限。5月底,Arm 2023全面计算解决方案(TCS23)正式推出,可以说,这是Arm迄今为止针对智能手机推出的性能最优异的移动计算平台。包括了全新旗舰级Arm Immortalis GPU,可带来绝佳视觉体验;全新的Armv9 CPU集群,延续了在AI方面的领先性能;以及可为数百万Arm开发者提供的更易访问软件的全新增强技术。

在日前举办的Arm技术媒体分享日上,Arm内部多位技术专家,对TCS23进行了深度解读,包括在CPU、GPU、安全及软件方面的最新技术动态,以及Arm在终端设备领域的应用创新和市场洞见。

Arm全面计算战略最新进展?

纵观整个生态系统,能够提供全面解决方案的IP供应商并不多见,本身难度也较高。Arm的全面计算战略究竟是什么?为什么推崇全面计算解决方案的开发方式?简单理解,它是将一整套针对特定工作负载设计和优化的IP作为一个完整系统,使得这些关键IP能够无缝地协同工作,从而大幅降低了SoC设计的复杂性,减少了工程成本和资源消耗,缩短了产品上市时间。

2021年,Arm 全面计算解决方案首次发布。借助该平台解决方案,SoC设计能够更轻松应对计算子系统构建和配置过程中的诸多挑战,包括开发用于总线互联、系统级缓存 (SLC) 和内存管理单元 (MMU) 的第三方系统 IP,以及将所有组件集成到CPU和GPU集群等各个环节中遇到的问题。

去年推出的Arm 2022全面计算解决方案(TCS22),就为一系列工作负载提供了更高的计算性能和能效,并在多个设备中实现了全面计算战略的所有要素,例如高通第二代骁龙8移动平台、MediaTek天玑9200移动芯片组

全新发布的TCS23,可以说是针对移动计算的优选计算平台,提供64位计算性能支持,包括了尖端CPU和GPU技术,能够让游戏开发者以及人工智能应用开发者实现沉浸式体验的打造,此外,还有在软件、内存安全等方面的优化。

Arm 产品营销副总裁Ian Smythe强调,“我们所关注的不止在下一代设备,还着眼于未来。我们对CPU、GPU产品路线图的承诺更胜以往,在接下来的几年里,我们将在包括 Krake GPU 和 Blackhawk CPU 等关键IP上加大投入,以满足合作伙伴对于计算和图形性能的要求。”

Arm终端事业部产品管理高级总监Kinjal Dave指出,移动SoC设计变得越来越复杂,主要表现在以下四个方面:第一是IP本身越来越复杂;第二是IP可能需要跨领域、跨系统,比如MTE技术;第三是越来越多样的终端使用场景在出现;第四是芯片设计工作本身,在设计选择以及平衡方面的取舍难度在提高。

提供系统的参考设计,可以帮助合作伙伴更好地应对这些挑战。TCS23集成了一系列新推出的Arm IP产品,包括CPU、GPU和其他系统IP,主要有:基于全新第五代 GPU 架构而构建的Immortalis-G720、Mali-G720 和 Mali-G620;Armv9.2计算集群,包含Cortex-X4、Cortex-A720和Cortex-A520 CPU,以及DSU-120。通过这些IP组件的协同,TCS23实现了两位数的性能、效率和功耗提升。

除了新的IP之外,TCS23 还提供了一系列专为全新一代安卓操作系统量身定制的设计、开发、优化工具,同时也提供了用于加速SoC设计的物理实现支持。此外还有Arm NN 和 Arm Compute Library等软件库的持续优化,助力开发者在 Armv9 架构上优化其机器学习 (ML) 工作负载的执行效率。

Cortex CPU集群性能再创新高

过去几年,业界都看到了Arm对CPU性能和效率的不懈追求。比如首款高性能 Cortex-X CPU、高能效Cortex-A700系列、高效率Cortex-A500系列,不同CPU集群也不断丰富了 Arm生态系统。

TCS23中,Arm推出了最新的Arm Cortex-X4,以及集合了Cortex-X4与全新Cortex-A720、Cortex-A520的新一代CPU集群,堪称Arm史上最强大的Cortex CPU计算集群阵容。

其中,Cortex-X4 专注于实现优异性能,并再次带来了两位数的IPC 增长。相较于去年的安卓旗舰设备,其性能提升了15%。两位数的IPC增长也为单线程“爆发式”工作负载提供了峰值性能,例如在智能手机上启动应用、浏览网页、页面的加载和渲染,以及相机功能。除性能外,Cortex-X4能效比提高了40%。在保持性能和效率优势的基础上,还兼具支持更高的可扩展性,每个内核的 L2 缓存可多达 2MB,可广泛适用于各类消费电子设备。

大小核产品方面,Cortex-A520 实现了更好的电源效率,与Cortex-A510相比,在能效方面有22%的提升。尤其针对低密度背景任务,能延迟电池续航时间。它也是封装最小的一款Cortex 产品,非常适用于入门级和手机终端设备。

Cortex-A720则是CPU集群产品中的主力产品,与Cortex-A715相比,它在高效方面实现了20%的提升,可以让设备在更长时间内支持多线程的应用处理。除了针对高端机型的待机时长,Cortex-A720在面积配置方面还做了扩展,从而满足其他档次的手机产品。

Arm 终端事业部产品管理总监 Saurabh Pradhan指出,以上三款IP都基于全新的Armv9.2 的架构,都是纯64位IP产品,这也意味着Arm完成了向64位的迁移。

“一个全面解决方案要有DSU才完整,此次我们发布了DSU-120,它不光可以把所有IP很好地结合在一起,同时也是催化剂,能够实现CPU集群最好的性能和效率。”Saurabh Pradhan表示。

全新DynamIQ Shared Unit——DSU-120是TCS23 CPU集群的核心要素,它基于两年前推出的DSU-110开发,针对DSU的各方面进行了优化提升。扩展性方面,它支持单核到14 核,适用于消费电子设备的各类CPU集群,涵盖入门级智能手机、可穿戴设备到旗舰智能手机和高端笔记本电脑的各个领域。

此外,DSU-120还提供智能节能模式,新增24MB和32MB的L3缓存配置选项,进而使对应集群拥有更高的性能和更低的系统功耗。

在现实的使用场景中,这意味着什么呢?比如高性能笔记本电脑中,可由10核Cortex-X4和4核Cortex-A720集群组成;旗舰智能手机方面,可由单核Cortex-X4、4核Cortex-A720和4核Cortex-A520组成。可以看到各类方案中,高度可扩展的DSU都为TCS23奠定了根基。同时,Arm还提供一款8核CPU集群,包括单核Cortex-X4、5核 Cortex-A720 和双核 Cortex-A520。除了这些CPU集群,合作伙伴也可自由定制独有集群,根据各式应用场景以及自身计算要求来开发和运用。

要强调的是,Arm基于全新的Armv9.2架构构建了所有的CPU新品。除了内存标记扩展(MTE)和 可伸缩矢量扩展 SVE2,Armv9.2 架构还为指针验证(PAC)全新添加了 QARMA3 算法,以提高在 Armv9 CPU 上激活安全功能时的性能表现。

Arm首席 CPU 架构师兼研究员Ian Caulfield补充,“TCS23的CPU集群相当于有三个不同的微架构,针对不同的应用场景可以灵活配置,同时,Arm还提供各种各样的频率以及功耗的执行点,这是TCS最关键的一点。最高效能的Cortex-X4支撑着最高性能的应用;最低功耗的Cortex-A520,主要支持背景低密度的任务,从而实现最低可控的功效;中间的是 Cortex-A720,能够实现最具有持续性的性能。”

至于Arm为何坚持超大核、大核、小核的独特设计哲学?Saurabh Pradhan解释,“Arm 是目前唯一一家能够同时提供三种不同微架构的厂商,这是一大优势。我们坚持超大核、大核和小核的设计,从而给予合作伙伴最优的选择组合。”

基于第五代 GPU 架构,重新定义视觉计算

TCS23的GPU方面,采用了新的第五代 GPU 架构,提高了所有GPU的系统级图形性能,这意味着除了大幅提高GPU性能,还优化了TCS2的外部内存、CPU集群和系统级缓存 (SLC) 之间的交互过程,从而提升了整体的性能表现。

Arm 终端事业部产品管理高级总监 Anand Patel表示,基于Arm GPU的芯片出货量已经超过90亿,今年是第五代架构的第一年,Arm会非常专注于处理效率,关注关键的技术趋势,例如:场景复杂性、更出色的图形性能和内存系统能耗功率。

首先,移动设备上的场景复杂性在呈爆炸式增长,更高的场景复杂性会让几何相关的内存访问占据过多的可用带宽,并最终影响性能。第五代架构致力于提升图形管道,让用户能够以更高的每秒帧数 (FPS) 畅玩游戏。与此同时,在移动设备上实现下一代高级别几何学渲染游戏和实时 3D 应用也成为了可能。

为了处理更复杂的场景,图形管道首先引入了延迟顶点着色 (DVS), 以重新定义GPU 中的图形数据流。DVS 利于性能随内核数增加而提升,使合作伙伴能够在未来达到更高的性能水平,此外,它还有助于在高度复杂的游戏场景中保持稳定帧率,同时为未来下一代的几何内容提供支持。

其次,在更出色的图形性能方面,推动高动态范围 (HDR) 渲染的使用需求持续增加。Arm 也积极支持开发者拥抱这一趋势,最新的Immortalis-G720 有助于控制 HDR 渲染中使用的高深度纹理的性能影响。通过引入DVS,超复杂几何形状的场景可被渲染,并可节省处理能力。与基于Valhall架构的Immortalis-G715相比,基于第五代架构的Immortalis-G720的写入带宽提高31%,FPS提高20%。借此释放了图形管道的空间,用以增加媲美电脑端的质量效果,例如实时动态光照、高光溢出效果和景深。

第三,Arm在TCS22的基础之上进行回顾总结,发现DRAM、互连和内存均大量导致了内存系统能耗功率,也就是说内存系统能耗功率是导致处理器散热达到极限的主要因素。因此在第五代GPU架构中,希望为GPU分配更多的内存系统效能以达到更好的视觉效果,同时也希望可以进一步节约能耗功率,以延长电池续航时间。

除了引入第五代架构外,Immortalis 和 Mali GPU的整体设计在性能和效率方面也实现了大幅提升。Immortalis-G720 支持10核或更多核心,并可选用优化的物理IP来加速 SoC 设计。Mali-G720可支持6到9核,而Mali-G620可支持最多5个核,可助力快速复用。

此外,在广受欢迎的光线追踪功能方面,Arm正在与腾讯游戏和MediaTek 合作,通过 SmartGI技术以进一步提高行业采用率,并开发最佳实践文档,为游戏开发者提供支持。

内存标记扩展(MTE)应对内存安全挑战

Arm 终端事业部软件战略总监卢旻盛指出,内存标记扩展(MTE)是未来数字化和更加好的智能化体验的基础。由于数字化、智能化建立在更好的计算能力基础之上,这样才能让更多的软件实现更好的功能。但其中涉及一个问题,软件越复杂,漏洞也会随之增长,如果不从根本上改变这个现状的话,就很难实现智能化所带来的真正好处。

利用MTE,开发者可以快速找到内存相关漏洞,加快应用调试和开发流程。此外,该功能支持动态更改配置,这意味着在现场可通过漏洞报告和遥测系统,向开发者回传有关访问故障位置的准确信息。构建于最新 Armv9 架构的 Arm CPU,Arm提供MTE等安全功能,能够为软件开发者、芯片供应商和设备制造商提供影响深远的信息安全、功能安全、成本和上市时间优势。

事实上,内存安全是一个很老的问题,很多软件平台操作系统很早就开始提出这一问题。据操作系统供应商 (OSV) 报告,其产品中的大多数安全问题都源于内存安全违规导致的漏洞。谷歌的Chromium项目团队表示,内存安全问题在所有严重安全漏洞中占到70%。

内存安全违规有两种主要类型:空间安全违规和时间安全违规。MTE 可提供在生产代码中检测这两种违规的机制,且无需使用任何仪器。

卢旻盛介绍,Arm 实现的MTE为两阶段系统,即“锁”和“密钥”。如果密钥匹配,则允许访问锁内存;否则,访问可能会被记录下来或出错。这样就可以更轻松地检测到难以捕获的内存安全错误,也有助于进行常规调试。

在锁和密钥两阶段系统中,存在两种类型的标记:地址标记,用作密钥。这将在进程中每个指针的最高位增加四位。地址标记仅适用于 64 位应用,因为它使用了“高字节忽略”功能,这是Arm 64位的一个功能。内存标记,用作锁。内存标记也由四位组成,与应用内存空间中每个对齐的 16 字节区域相连接。Arm 将这些 16 字节区域称为标记颗粒。这四位并不用于应用数据,而且是分开存储。

MediaTek在天玑旗舰9200中就已经支持了MTE,MediaTek 无线通信事业部资深总监章立认为,芯片级的安全是整个移动生态的基础设施,没有芯片级的安全就没有今天移动生态的繁荣。

在 MTE 技术之前,很多应用开发者都会有这类困惑,比如:指针的控制、错误的使用造成内存的泄露。有了MTE之后,可以动态捕捉指针的错误,从而大大提升移动IT的安全性。其次,MTE对用户体验的提升也非常关键的,它提供了一个工具或方法,能够让开发者把移动性能做得更健壮、更稳定、用户体验更好。

vivo芯片规划和架构高级总监夏晓菲表示,vivo作为整机厂商,通过与Arm、MediaTek 的合作,可以让软件开发者有效把MTE用起来。从目前收到的反馈来看,很多开发者表示越来越离不开这个特性,因为这极大加速了他们软件开发的效率,最终也能给消费者带来很好的体验,达到端侧性能的平衡。

荣耀公司MagicOS DFS架构师余亮分享了为什么要使用 MTE、以及荣耀天网如何使用 MTE。他认为,首先踩内存的问题影响非常大,会导致用户功能不可用和应用闪退,甚至整机重启。其次,MTE 能在踩内存时,捕获故障现场的日志,提供更准确的定位信息,最后能以更低的内存开销和更好的指令性能,相比ASan、HWASan 更接近用户真实的性能环境。

荣耀天网提供两种接入方式,第一是购买支持 MTE 的设备,通过HOTA升级到天网版本。第二是云服务,企业开发者用户登录荣耀相关应用网站,进入远程真机调试环境。通过这些方式,打造更稳定、更安全的生态环境。

例如快手的海外产品 (Kwai和SnackVideo) ,目前正和荣耀天网合作,在大型项目中使用 Arm MTE提高内存安全。据了解,90%的内存安全问题可以在App正式发布之前就在线下被检测出来。

卢旻盛表示,Armv9 架构是全球数十亿移动设备的计算基础,MTE现已广泛普及,Arm架构正在成为全球数字化安全的基石。

自下而上的安全加固

除了IP方面的升级更新,在软件和生态系统合作方面Arm做了很多工作。据了解,Arm内部有45%的工程师属于软件开发人员,一些工程师从事底层开发,更多的工程师则从事高层开发,比如软件框架、性能分析工具、实践应用等。

首先在安卓移动生态系统向64位的迁移过程中,需要产业链不同角色之间非常细致的协调。此外,并不是从生态系统中就完全消除 32 位,市场上还有很多32位的设备需要支持。

Arm 终端事业部生态系统及工程高级总监Geraint North表示,这既需要解决32位的历史遗留问题,向应用开发者证明64位的过渡是在真实发生的,并且也需要为他们64位的平台提供一些额外的助力。在过去的五年中,Arm积极与生态系统合作,为仅支持64位的硬件做好了相应的软件准备。

其次在安全技术部署方面的,现在业界的软件数量是有史以来最多的,而且越来越多的数据会在它生命周期的某一个点推动 Arm IP,这也更为考验Arm软件的安全性和稳定性支持,也正是如此,Armv9架构越来越注重安全技术的引入。

Geraint North谈到,Armv9 CPU中,除了MTE外,还首次推出了PAC和BTI安全功能,BTI可以保护程序不跳转到内存中未经授权的地址,PAC和BTI联合使用,攻击者就很难将现有的代码的片断用于不法手段,能提供最大限度的保护。

Armv9是未来,行业加速向64位迁移

过去的一年多,全球几乎所有的移动应用商店都全面对64位系统提供支持,应用生态系统也已做好迎接纯64位设备的准备。那么,Arm后续是否会将重心全部投入Armv9架构,并逐渐停止Armv8的更新?

Saurabh Pradhan表示,整个Armv9就是Armv8的升级换代,在终端应用领域,基于Armv8架构将不会推出新品。

Ian Smythe补充,核的性能提升表示处理的指令数量要提高,Arm在Armv9架构上做了巨大的投资,Armv8和Armv9的性能差非常巨大的,Armv9就是未来。此外,Cortex-A520 也是真正意义上的首个纯64位Arm小核CPU,随着纯 64 位的移动设备进入市场,预计很快将会涌现更多此类设备。

Arm终端事业部高级产品经理Manish Pandey表示,纯64位系统可以为合作伙伴提供更高的计算能力、更高的安全和机器学习功能,同时有助于提升应用开发流程。在算力表现方面,64 位指令集性能提升可达20%,可缩短应用加载时间,并实现更出色、更敏捷的用户体验。这有助于满足多种工作负载(特别是 AI 和 AAA 级游戏)对算力的无尽需求。

目前,绝大多数安卓移动设备上部署的操作系统 (5.0 及更高版本) 可同时支持 64 位和 32 位安卓运行。Manish Pandey认为,这额外增加了内存、开发和测试方面的负担,在向纯 64 位移动设备过渡的过程中,优先开发64位应用可以降低复杂性、开发成本和测试成本,并缩短上市时间。这一举措也能推动安卓生态系统专注于支持新兴功能和技术,并实现 32 位架构无法达到的出色性能和稳健性。

写在最后

全球移动数据使用量仍在持续攀升,柔性显示屏、AR光学等新形式、新元素正在以不同方式进入大众视野,生成式AI及移动端大型语言模型的出现,将带来新的功能和需求,移动设备的创新有望持续提升。

针对移动计算应用场景,Arm希望通过TCS23实现整体SoC性能和效率的更优表现。正如Arm方面所说,无论合作伙伴选择哪一种TCS23配置,都希望能助力他们在SoC 开发过程中缩短上市时间、并降低成本。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MAX2112ETI+T 1 Maxim Integrated Products Video Tuner,
暂无数据 查看
ADV7282AWBCPZ-M-RL 1 Analog Devices Inc 10-Bit, 4x Oversampled SDTV Video Decoder with Differential Inputs
$66.82 查看
IS31AP4991-GRLS2-TR 1 Integrated Silicon Solution Inc Audio Amplifier, 1.46W, 2 Channel(s), 1 Func, PDSO8, SOP-8
$0.68 查看
Arm

Arm

ARM公司是一家知识产权(IP)供应商,主要为国际上其他的电子公司提供高性能RISC处理器、外设和系统芯片技术授权。目前,ARM公司的处理器内核已经成为便携通讯、手持计算设备、多媒体数字消费品等方案的RISC标准。公司1990年11月由Acorn、Apple和VLSI合并而成。

ARM公司是一家知识产权(IP)供应商,主要为国际上其他的电子公司提供高性能RISC处理器、外设和系统芯片技术授权。目前,ARM公司的处理器内核已经成为便携通讯、手持计算设备、多媒体数字消费品等方案的RISC标准。公司1990年11月由Acorn、Apple和VLSI合并而成。收起

查看更多

相关推荐

电子产业图谱

与非网资深行业分析师。主要关注人工智能、智能消费电子等领域。电子科技领域专业媒体十余载,善于纵深洞悉行业趋势。欢迎交流~