9 月 16 日,苹果秋季新品发布会如约而至,但传闻中的 iPhone12 却要等到下个月才能见到。发布会仅上新了两款智能手表和两款 iPad 平板电脑,新品 iPad Air 4 则搭载了最新的处理器芯片 A14 Bionic(仿生)处理器。这几款新产品香不香另说,A14 Bionic 处理器却成为了此次发布会的最大亮点。
根据苹果的介绍,A14 Bionic 处理器是苹果首款采用 5nm 工艺打造移动设备芯片,晶体管数量相较于 A13 Bionic 处理器的 7nm 芯片增加了近 40%,晶体管数量达到了惊人的 118 亿颗。
仅凭工艺制程的提升,A14 在性能和功耗表现上自然会有一定的提升。官方宣称,在性能比较上,CPU 提升 40%,全新 GPU 构架提升 30%。不过,让外界吐槽的是,这一数据是 A14 跟 A12 比较得出来的。这让 A13 情何以堪呢?
而根据苹果之前公布的数据,A13 相比 A12 在 CPU 和 GPU 性能上都提高了 20%。因此,如果这两代的处理器性能指标测量标准一致的话,则 A14 的 CUP 性能仅比 A13 快了约 16%,GPU 性能仅比 A13 提升了约 8.3%。可以说,如果排除掉 5nm 工艺本身所带来的改进,相对 A13 来说,A14 在 CPU 和 GPU 核心本身性能上的提升其实并不高。
不过,在 AI 算力上,A14 相比 A13 则有了非常大的提升,从之前的 8 核 NPU 直接翻倍提升到 16 核 NPU。根据苹果的测试,A14 的 AI 运算能力也提升到了 11.8 万亿次,机器学习速度提升了 70%,机器学习加速器则令运算速度快达 10 倍,将各种机器学习应用的性能表现提升至全新水平。
如果留意就会发现,苹果从 A11 到 A14,每一次在 AI 运算性能上都做了大幅地提升。尽管我们看到苹果并不总是以 AI 芯片或者 AI 智能终端为噱头来做宣传,但事实上苹果 iOS 系统上已经遍布各种 AI 应用或者功能,对 AI 算力增长提出了超高的需求;与此同时,安卓阵营高端芯片厂商在 AI 芯片上面的频频发力,正在缩短甚至追上与苹果的 A 系列芯片的差距,这些可能都是构成苹果移动终端芯片的 AI 算力爆发式增长的缘由。
从 A11 到 A14,苹果的 AI 算力进化
2017 年,AI 已经成为大众热议的话题。此时没有一家终端芯片厂商不是以 AI 作为产品的新噱头,但真正能在 AI 芯片方面拿得出手的厂商也没有几家。这一年华为的麒麟 970 横空出世,抢到了首发。10 天后,苹果的 A11 Bionic 也正式发布,A11 采用 10nm 工艺制程、六核 CPU、自研三核心 GPU 设计。
之所以可以称为“AI 芯片”,就在于 A11 首次搭载神经网络引擎处理器单元(Neural Network Processing Unit,NPU),并且在新的神经网络引擎上苹果发布了第一代 Core ML,运用本地化人工智能加速器进行机器学习。
A11 搭载的 NPU 采用双核设计,每秒运算次数 6000 亿次,主要处理机器学习任务,能够识别人物,地点和物体,主要针对的应用是 iPhone 新推出的人脸识别锁屏 FaceID 以及人脸关键点追踪 Animoji,且 NPU 算力并不对第三方应用开放。
苹果 A11 处理器的标志意义,除了成为苹果自主研发程度最高的一代处理器之外,其实也和华为一起真正地打开了移动终端的 AI 时代。此后几乎所有手机厂商都把 AI 运算能力当作宣传卖点和升级点。
苹果在 2018 年推出的 A12 Bionic,采用了台积电当时最新的 7nm 工艺制程,苹果自研的 Fusion 架构,而神经网络引擎从双核直接升级到八核,能够实现每秒 5 万亿次计算,比较上一代有了 8.3 倍的提升。第二代神经网络引擎才是在算力和性能上能够实现更多 AI 功能。另外,A12 采用了全新的智能 HDR 算法以及 core ML 带来的图像识别、第三方 APP 垃圾信息处理等功能,AI 应用开始普及。
2019 年发布的 A13 Bionic 处理器,CPU、GPU 和 NPU 的核心数都与 A12 相同,只是采用了台积电升级版 7nm 工艺,集成 85 亿个晶体管,性能、功耗都有了一定提升,而神经网络引擎的峰值算力提升到每秒 6 万亿次计算,提升幅度并不显著,同样是为面容 ID、三摄系统、AR 类 APP 等机器学习应用提供算力支持。不过值得一提的是,通过在 CPU 中加入 2 个机器学习加速器,让 CPU 可以达到每秒 1 万亿次的矩阵数学运算。同时,Core ML3 可以与机器学习控制器配合,自动为 CPU、GPU 和 NPU 分配任务。
这次发布的 A14 处理器芯片上,神经引擎核心数再次翻倍达到 16 个,每秒运算次数达到了惊人的 11.8 万亿次,机器学习速度提升了 70%,机器学习加速器则令运算速度快达 10 倍,将各种机器学习应用的性能表现再次大幅提升。
AI 应用的“猛虎”,苹果 AI 芯片大规模升级的内因
根据资料,早在 2014 年,苹果已经在新一代架构芯片 Soc 的开发中加入专门的 AI 芯片。而在此之前,苹果的 AI 算力是由“CPU+GPU”实现,其自主开发 AI 芯片的设计思路则是由 CPU 和 GPU 处理的 AI 任务转向由专门的 AI 芯片进行处理,最终将芯片集成到终端设备上。
与此同时,随着苹果移动终端在拍照摄影、图形处理等应用上面越来越需要用到神经网络和机器学习、深度学习的算法运算,这些需求使得苹果开始考虑将 AI 应用的运算必须采用神经引擎这一专门定制的处理器单元来完成这些计算。
2017 年,苹果的神经引擎处理器正式落地。
不过让外界惊讶的是,为何短短三年之中,A 系列芯片的 AI 算力得到了将近 20 倍的提升,远远超出 Soc 芯片其他处理器的性能提升幅度?
一方面是 CPU 和 GPU 的性能,在现有的工艺制程进化和既定架构的约束上提升已经非常困难。随着半导体工艺从 7nm 向 5nm、3nm 工艺升级,难度会越来越大,而可预期的提升却可能并不显著。反而 AI 加速器还会有相当大的设计提升空间。
另一方面是,终端应用对于动用 CPU 和 GPU 的需求正在达到一个用户的使用极限,因此也没有快速增长的需求,但是这些应用的 AI 算力需求则在大幅增长。
如果对苹果 iOS 系统中的用到机器学习相关的功能和应用进行分析的话,我们看到最新两代的 iPhone 和 iPad 已然是一部各个部分和细节都在使用 AI 的终端了。
在苹果终端的细节体验,已经有大量机器学习算法的加持,但相应的体验难以被用户察觉。
比如,机器学习用于帮助 iPad 的软件区分用户在使用 Apple Pencil 绘图时到底是不小心将手掌压在屏幕上还是有意提供输入的按压。或者是在监控用户使用习惯,以优化设备的电池寿命和充电频次,既可以改善用户在两次充电之间的时间,又可以保证电池的使用寿命。
还有像 iPhone 的拍照,用户每次按下快门,设备会快速连续拍摄很多张照片,然后经过机器学习训练的算法会分析每个图像,并将其认为是每个图像的最佳部分合成为一个结果。也就是 iPhone 拍照的卓越效果很大程度是靠“计算”出来的。苹果正是通过 iPhone 中对图像信号处理器(ISP)和神经引擎的协同处理,才使得照片质量获得大幅提升。
苹果在终端本地大幅提升神经引擎的运算能力,以及配合图形计算引擎和 AI 加速等功能,可以在移动终端中执行非常高难度的机器学习任务。比如在 iPad Pro 上,通过神经引擎的计算能力,结合 Project Aero 软件,iPad Pro 能将 PSD 中创作的每一个图层以独立的 AR 对象呈现在屏幕上,每个图层都分离成一幕栩栩如生的景观,这对创作者来说相当具有吸引力。
此外,苹果已经加入的显著的 AI 新功能,诸如机器学习在翻译、内置听写、输入预测、健康特性分析与预测上面,都需要大量的机器学习参与。
而苹果选择在机器学习任务的本地化计算的另一大原因,可能是为了将数据留在本地,用以保护用户隐私。我们知道,机器学习的本质就是对海量数据进行学习,而数据的采集和分析一直是谷歌、facebook 这些互联网公司的“原罪”,作为承诺严格遵守用户隐私数据保护的苹果,自然要做出保证,尽量将机器学习算法所需要的用户数据留在用户的移动终端当中,但与此同时要保证 AI 算法的有效,就必须对终端芯片的 AI 算力引擎做出大幅提升。
当然,苹果自身终端系统对于 AI 算力升级的要求,只是一只内生的吞噬算力的“猛虎”,在外部竞争中,苹果还要面对一群实力强劲的“追龙”,在 AI 算力提升上不断地应战。
安卓阵营的“追龙”,苹果 AI 算力快速升级的外因
苹果自研的 A 系列处理器芯片,一直以来以创新和高性能著称,虽然最近两年,安卓系的高端芯片,诸如高通的骁龙芯片、联发科 Helio 芯片、华为海思的麒麟芯片则大有追赶之势。
如果抛去综合性能的讨论,但是在 AI 芯片算力上面,高通的骁龙处理器在性能上和数量上都已经有超过苹果 A 系列芯片的可能。
比如在 2019 年上半年手机 AI 芯片排行榜上,排名前十的智能手机 AI 芯片,其中前四名分别是高通骁龙 855、苹果 A12 Bionic、联发科 Helio P90 和海思麒麟 980。但值得关注的是,除了第二、三、四名,这份榜单中的其他位置都被高通骁龙芯片占据。
与苹果采取专用 NPU 芯片来提供 AI 算力不同的是,高通的骁龙处理器采用了异构计算的方式,推出了自研的 AI 引擎,通过 CPU、GPU 和 DSP(Hexagon 处理器)组合相互配合,运行神经网络计算的效率,根据不同的应用场景来安排工作负载。
而预计在今年年底发布的高通骁龙 875,同样采用了 5nm 制程工艺,与 7nm 相比逻辑密度提高 80%,其基础性能较上代提升 15%,功耗降低 30%。非常激进的是,高通这次采用了 ARM 的 Cortex X1 超大核心设计,为“1+3+4”八核心三簇设计模式,其中 1 为 Cortex X1 超大核心,3 为大核,采用 Cortex A78,4 为能效核心。据业界的预测,骁龙 875 无论在综合性能还是在 AI 算力上都有超越 A14 的可能。
此外,高通通过 AI 引擎的的高、中端芯片布局,与不同的软硬件企业一起,从底层框架、硬件核心、软件等层面,将 AI 能力应用到了海量的移动终端和智能设备上,形成基于 AI 应用的合作生态。
高通在 AI 算力上的激进演化以及在 AI 能力上的不断赋能,已经开始形成对于苹果的 A 系列芯片领导力的巨大威胁。在面临安卓阵营这些“追龙”对手如此“给力”的努力下,苹果自然也会有强大的外部动力来大幅升级自身的性能优势。就像骁龙 875 这样的性能怪兽的出现,始终会追在苹果身后,准备吊打苹果。
反过来看苹果,其 NPU 的性能升级战略也并未显露颓势。根据专业人士的说法,目前,苹果 A 系列芯片上 NPU 占芯片总面积约为 5%,未来 NPU 的面积能够达到类似 GPU 占有的 20%的面积的程度,AI 算力至少还有 4 倍的提升空间,此外还有提升算法和芯片之间的协同设计,同时通过 Core ML 的进化来加强不同 AI 模型的异构设计,同样可以发挥其他 SoC 芯片部分的潜在算力。总体来说,苹果在 AI 算力的提升上面还有巨大的增长空间。
我们看到,苹果和安卓阵营在高端芯片厂商在芯片性能的升级,正在从 CPU 所引领的摩尔定律的赛场转向以 AI 算力增长为代表的新赛道上。而从 AI 算力的增长潜力来看,这一升级战在未来几年会更趋激烈。
然而最可惜的是,这场终端芯片 AI 角逐赛里,未来会缺席一位来自中国的实力选手。