2018 年,AI 几乎充斥了我们的生活,如果见朋友不聊点和 AI 相关的话题,似乎自己就与这个时代脱节了,近期高通骁龙 855 的发布再次把 AI 的关注度推向了高潮,从权威统计机构的预测来看,2018 年全球 AI 市场规模预计为 1.2 万亿美元,到 2022 年有望达到 3.9 万亿美元。AI 势不可挡的发展势头让各大科技公司不得不一拥而上,不管是做芯片还是做产品,统统都要和 AI 挂钩,大有“得 AI 者得天下”之势。AI 已经在各个领域开始渗透,光 AI 音箱这一种亚马逊、天猫、小米就打得不可开交,其它智能电子产品更是不胜枚举,当然,这都不是今天的重点,今天我主要想谈的是 AI 芯片,今年推出的这些 AI 芯片看看哪些比较靠谱。
目前,笔者知晓的 AI 芯片有骁龙 855、麒麟 980、苹果 A12、联发科 P60、紫光展锐 SC9863A 和瑞芯微 RK3399Pro,谁强谁弱先拉出来比一比:
1、骁龙 855:张量加速器不等于独立 NPU
骁龙 855 采用台积电 7nm 工艺制程,CPU 为 Kryo485(超级内核基于 A76 定制主频 2.84GHz、性能内核主频 2.42GHz、效率内核主频 1.8GHz,1+3+4 架构);GPU 为 Adreno640,与前代产品相比,渲染速度提升 20%,支持 Vulkan1.1/HDR/PBR。
骁龙 855
在 AI 性能方面,骁龙 855 加入新的张量加速器(TensorAccelerator),专门负责 AI,组成第四代 AI 引擎。可以实现每秒超过 7 万亿次运算(7TOPs),AI 性能比骁龙 845 提高了 3 倍,比苹果 A12 每秒 5 万亿次运算(5TOPs)也高出不少。
高通的 DSP 数字信号处理器升级为最新的 Hexagon690,具备四线程标量内核,性能提升 20%,四个向量扩展核心(HVX),性能提升 1 倍,另外一个重要的改进是引入了张量加速器(HTA),自主设计,专为 AI 而设,支持多元数学运算、非线性方程、INT16/INT8 与混合精度整数运算,大幅提升了机器学习算法的性能和能效。结合 HexagonDSP、新的张量加速器,再借助更强的 GPU 和 CPU 完成终端侧神经网络运算,所有单元综合实现了专有的、可编程的 AI 加速。
但是,值得注意的是,骁龙 855 并没有配置独立 NPU 单元,其 AI 运算需要协调 CPU、DSP、GPU 等处理器单元,如果应用场景复杂,恰巧占用了这些处理单元,AI 运算就要排队等候。也就是,其他公司的芯片的人工智能算力是独立算力,高通的 AI 运算是综合算力。
2、麒麟 980: 配置双 NPU
麒麟 980 采用 7nm 工艺制程,基于 ARM 的 A76 架构,主频是 2.6GHz,八核心分别是 2×A76(超大核)+2×A76(大核)+4×A55(小核),其中 A76 四个核心上采用了智能调度机制。相对于传统的大小核两档位设计,麒麟 980 让 CPU 在重载、中载、轻载场景下灵活适配。
在 AI 配置上,麒麟 970 搭载了一个 NPU(神经处理单元),其专门负责 AI 运算,在大幅提高手机 AI 性能的同时降低了 AI 任务功耗。麒麟 980 则配置了两个 NPU,因此在 ResNet-50 图像识别测试中得到了 4500 张每分钟的成绩。整体来看,相较于麒麟 970,麒麟 980 的 CPU 性能提升 75%,能效提升 58%,内置的 10 核 GPU Mali-G76 让性能密度号称提升 30%,能效提升 30%。
3、苹果 A12:搭载 8 核神经网络引擎
A12 采用 7nm 技术,内部有 69 亿个晶体管,采用六核 CPU 设计,相比 A11 处理器,其中两个大核心性能提速 15%、功耗降低了 40%,四个小核心功耗降低最多 50%。A12 采用自研四核 GPU,性能相比 A11 的 GPU 性能提高 50%,并强化了对 AR 混合现实的支持,支持曲面细分、无损内存压缩和实时多层渲染功能,AR 性能获得大幅度提升。
关于 AI 性能,苹果 A12 还搭载了八核神经网络引擎,其运算速度达每秒 5 万亿次,远超 A11 的每秒六千万次,可以更独立机器学习,支持多精度,智能计算系统。同时,苹果还将神经网络引擎开放给 Core ML 平台,开发者可将机器学习技术应用到自己的 app 中,让学习过程在用户的 iPhone 上进行。提升了 Siri 易用性、使 A12 芯片的机器学习能力相比之前能够提升 9 倍,而能耗则降低到原来的十分之一。
4、联发科 Helio P60
联发科 Helio P60 采用 ARM Cortex A73 和 A53 大小核架构,采用八核心大小核(big.LITTLE)架构,内建四颗 ARM A73 2.0 Ghz 处理器与四颗 ARM A53 2.0 Ghz 处理器。相较于上一代产品 P23 与 P30,CPU 及 GPU 性能均提升 70%。采用 12nm FinFET 制程工艺,功耗表现得到很大提升,整体效能提升 12%,执行大型游戏时的功耗降低 25%,大幅延长手机电池的使用时间。
关于 AI 配置,联发科在 P60 中引入了 AI 单元 APU,在 P60 中采用了三核 ISP+双核 APU 的架构,性能提升两倍。ISP+APU 的多核图像处理单元除了提供硬件加速之外,还能够提供多线程的处理能力,这使得对于图片处理能力和速度大幅提升。包括自动对焦、白平衡以及高规格 HDR 在内等反映的速度更快。此外,APU 的引入以及联发科提供的平台化的策略,也更有利于开放给合作伙伴以及第三方进行拍照的后处理,定制更多的拍照算法。应该说 AI 的引入,使得 P60 的硬件性能进一步得到释放。与此同时,AI 所带来的软件层面的超级算力也将带来诸如人脸、语音识别等功能的进一步增强。
5、紫光展锐 SC9863
紫光展锐 SC9863 主打 AI 牌,被称为 8 核 AI 芯片,支持 CAT-7,采用 Arm Cortex-A55 处理器架构的 SoC 芯片平台,在 Cortex-A55 人工智能的基础上,进行了应用开发。Cortex-A75 与 Cortex-A55 均采用 Arm DynamlQ 技术打造,而 DynamlQ 融入了 AI 神经网络技术。相比前代 Cortex-A53,Cortex-A55 NEON 进行了流水线改进与新增机器学习指令,让其在矩阵乘法运算方面的机器学习性能大幅提升,如果按照 AI 8bit dot-product 运算能力,比 Cortex-A53 提升 6 倍。
同时,得益于 ARM DynamlQ 单簇组合方式,Cortex-A75 与 Cortex-A55 可实现 1+3、1+7 或者 4 个大核、8 个小核的组合,多个 CPU 核芯以单簇的方式一起工作,可发挥更强大的性能,避免“1 核有难,7 核围观”的状况。紫光展锐 SC9863 采用的是 8 核 Cortex-A55 的组合方式,而高通骁龙 845 是 4 核 Cortex-A75 与 4 核 Cortex-A55 的组合方式。
SC9863 芯片平台的 AI 能力体现在支持基于深度神经网络的人脸识别技术,可实现快速精准的人脸认证;通过智能 AI 算法,实现实时智能场景检测识别、不同场景智能拍照增强、支持手机侧图库照片的智能识别与分类。但是,没有加入独立的神经处理单元,计算能力是否会出现折扣不得而知。
6、瑞芯微 RK3399
RK3399Pro 采用 big.LITTLE 大小核 CPU 架构,双核 Cortex-A72+四核 Cortex-A53+四核 ARM 高端 GPU Mali-T860,其集成的 NPU(神经网络处理器)融合了 Rockchip 在机器视觉、语音处理、深度学习等领域的多年经验。相较传统芯片,典型深度神经网络 Inception V3、ResNet34、VGG16 等模型在 RK3399Pro 芯片上的运行效果表现出众。
RK3399Pro 的 AI 特性有三点:
1)AI 硬件性能高,采用专有 AI 硬件设计,NPU 运算性能高达 2.4TOPs,高性能与低功耗指标均大幅领先:相较同类 NPU 芯片性能领先 150%;相较 GPU 作为 AI 运算单元的大型芯片方案,功耗不到其所需的 1%;
2)平台兼容性,RK3399Pro 的 NPU 支持 8bit 与 16bit 运算,能够兼容各类 AI 软件框架。现有 AI 接口支持 OpenVX 及 TensorFlowLite/AndroidNN API,AI 软件工具支持对 Caffe/TensorFlow 模型的导入及映射、优化;
3)完整方案易于开发,Rockchip 基于 RK3399Pro 芯片提供一站式 AI 解决方案,包括硬件参考设计及软件 SDK,可大幅提高全球开发者的 AI 产品研发速度,并极大缩短产品上市时间。
从以上六款带有 AI 功能的芯片来看,在架构上基本都是采用了多核模式,以八核为主;另外,关于 AI 运算,在原有 CPU、GPU 的基础上增加独立神经元计算处理单元成为主流趋势,这样可以实现 AI 运算加速,从而带来更好的用户体验;在应用方面,还是以手机的人脸识别、图像处理为主,未来随着 5G 的商用,在自动驾驶汽车中的应用也会逐渐增加。
从对比中可以看出,国产厂商和国内厂商各占一半,从高端到低端均有覆盖,在独立神经元计算单元的集成上,只有海思、苹果、联发科的产品上已经实现,其它几家厂商还在追赶。由于智能手机强烈的市场需求,因此 AI 普及起来更为顺畅,但是目前需要在人脸识别和图像处理的基础上探索更多可能的应用。
与非网原创内容,未经允许,不得转载!