从零到自研芯片王炸，亚马逊云科技做对了什么？

当高启强给泰叔说「风浪越大，鱼越贵」的时候，大概率没想到，这句话竟也适用于芯片行业。

这几年是人工智能的大年，风口之上，不只有绿厂一骑绝尘，各家芯片大厂也纷纷调转船头，希望在AI的海里多捞几条大鱼。

相比之下，另外一个技术半球、曾经风浪也很大的领域——云计算，貌似消停了不少。消停到以至于很多人没注意一个相当重磅的消息：7月初，亚马逊云服务官宣，他们最新的Graviton4芯片，已经完成了大规模部署。

这个消息之所以值得关注，是因为Graviton芯片本身就非常值得关注。遥想当年亚马逊云科技作为第一个吃螃蟹的人、以云计算公司的身份开始自研芯片，到现在Graviton4芯片大规模部署商用，这个过程中他们已经引领了三波重要的技术趋势：

趋势一：云厂商自研芯片，并由此构建独特的核心竞争力

趋势二：Arm架构在云端、消费端等各个场景的广泛使用

趋势三：软硬结合开启了更多创新机会，AI也是其中之一

今天这篇文章就帮你详细拆解下，Graviton4的大规模商用部署，是否会在科技领域掀起另一波滔天巨浪。

分析技术趋势之前，我们必须先来回顾和梳理一下Graviton这颗芯片的成长历程。

2015年，亚马逊花3.5亿美元收购了一个以色列的芯片公司Annapurna Labs，这成为Graviton芯片诞生的开端。站在现在的上帝视角往回看，这次3.5亿美元的收购撬动了超过4000亿美元的全球云计算市场。

事实上，两家公司在收购之前就已经有很密切的合作了。亚马逊云科技的当家技术叫做Amazon EC2，也就是Elastic Compute Cloud的缩写。这个东西是一个云计算的基础性平台，包括人工智能在内的很多应用，其实都是运行在这个平台上的一个个实例（instance）。所以这两家公司当时合作的重点，就是不断迭代Amazon EC2的性能和灵活性。但越迭代他们就越发现，软件优化的油水被榨的差不多了，各种瓶颈已经从软件转移到了硬件。更聚焦的说，瓶颈就是芯片。

本质原因很简单，市面上卖的各种芯片大都是通用芯片，并不会根据某个客户的需求做定制优化，即便是亚马逊云科技这样的超级大客户也不行。

于是他们决定，要自研芯片。

在2016年的re:Invent大会上，亚马逊云科技的传奇工程师James Hamilton就从口袋里拿出了他们自研的第一颗数据中心芯片，用来支持2x25G 以太网的数据包处理。当时给业界带来的震撼程度，丝毫不亚于ChatGPT的发布。因为人们突然意识到，原来云厂商能打破次元壁，去抢芯片公司的饭碗，而且可以做的很好。

更加震撼的是，Graviton的芯片架构没有选择当时占据99%市场份额的x86，而是选择了基于Arm的Neoverse内核打造。要知道当时行业的普遍认知是，Arm只适用于低功耗和移动端场景，PC都费劲，更不用说有着高性能高功耗的数据中心服务器场景，真的开眼了。

芯片工程师们也集体沸腾了，因为这相当于给他们开启了一片职业生涯的蓝海。原来我们也能去互联网和云计算公司，分享一波互联网的红利。

两年后，亚马逊云科技在2018年的re:Invent大会上正式发布了第一代Graviton处理器、2019年推出了Graviton2、2021年推出了Graviton3、2023年推出了Graviton4，保持了两年一更的节奏，而且每代都取得了极大的飞跃和提升。值得特别注意的是，Graviton是基于Arm架构的服务器CPU芯片，目前驱动了超过150种计算实例、全球超过5万家企业和开发者在使用，这里面的意义是不言而喻的。

具体来看Graviton4芯片，和前一代相比，核心数提升50%，达到96个；每个内核采用了当前最顶级的Arm Neoverse V2架构，这也是业界最早支持Arm v9架构的芯片之一。存储方面，Graviton4在缓存容量、内存容量和带宽等多个方面全面升级。比如每个核心的L2缓存扩大一倍到2MB，这样二级缓存总量达到192MB；同时支持12通道DDR5-5600，内存带宽提升75%，峰值带宽可以达到537.6GB/s。高速接口方面，Graviton4支持高达96通道的PCIe 5.0高速接口，非常适合数据中心云计算和云存储场景。

更重要的是，Graviton4的设计范式也在悄然改变。传统CPU的评价机制一般都是各种benchmark（基准测试），比如Microbench、SPEC等。但随着业务的不断细化、应用场景不断增加，原来那些统一的benchmark可能很难代表某个应用场景的需求。很可能成了一个跑分大杀器，但实际使用的时候达不到要求。根据亚马逊云科技在上海 Summit 上展示的材料，也充分对比了 Micro benchmark 和真实工作负载在 CPU 上的表现有很大差异。

于是从Graviton4开始，亚马逊云科技的造芯思路就从跑分转移到面向实际应用做设计，让芯片更加贴近使用场景，规避不必要的「内卷式」优化。

当然，这也是亚马逊云科技这样的云厂商才能有的「特权」。一个CPU的参数茫茫多，牵一发则动全身，所以特别需要知道哪些参数是重要的、哪些可能没那么重要。相比传统芯片设计公司，云厂商有大量实际场景和案例，对不同应用的侧重点和优化方向有第一手资料，相当于坐拥一个大宝藏了。而且这些应用更贴近自己的业务场景，也不需要为其他云计算公司的其他业务做妥协。

再详细聊聊前文说的Graviton带来的三个技术趋势。第一个趋势，就是在亚马逊云科技的造芯「示范效应」下，全球各家云厂商都纷纷开始自研芯片了，而且自研芯片给亚马逊云科技自己的业务也带来了实打实的提升。

根据亚马逊云科技的数据，和前一代相比，基于Graviton4的R8g实例性能提升30%，数据库性能提升40%。国外也有手快的人第一时间做了测试，在HPC、加密、代码编译、模拟仿真、光线追踪等实际应用场景下，Graviton4都取得了不错的提升。

比如做数字芯片仿真常用的Gem5模拟器，编译一个大型芯片的仿真需要很久，所以编译速度非常关键。但从测试结果可以看到，使用R8g实例后编译速度明显提升，不仅比前几代有大幅提升，也比大厂的产品有23%~49%的提升。

之所以Graviton能在短短几年取得如此亮眼的成绩，一个重要的原因就是采用了Arm指令集架构，这也是他们引领的第二个技术趋势。x86服务器芯片其实起源于客户端芯片，然后逐渐往里面增加服务器芯片需要的功能。而亚马逊云科技没有这样的包袱，他们就专注于服务器芯片本身，在利用了Arm架构低功耗、低延时的优点的同时，还结合自己的应用做了大量性能优化，也让Graviton成为了Arm架构在高性能计算领域的成功范例。

比如，Honeycomb公司在测试了R8g实例后发现，和x86架构相比，Graviton在降低尾延时方面效果最明显。与基于 Graviton3的 C7g、M7g 或 R7g 实例相比，R8g实例运行的副本数可减少 25%、中位数延迟降低20%，第99百分位延迟降低了10%。

不仅如此，Graviton已经开始进军AI领域。它特别内置了可伸缩矢量扩展（SVE）技术，它是单指令多数据（SIMD）的进一步延伸，允许CPU自由使用不同的向量长度，从而实现更加灵活的数据访问和计算，这也是Arm架构支持AI计算的杀手级技术之一。在Graviton4中，每个内核就集成了4个128位的SVE-2矢量引擎，明显就是着重发力高性能计算和AI应用。

此外，Armv8.6-A架构中还特别添加了SMMLA和FMMLA，可以在不同宽度的阵列上同时执行通用矩阵乘法，并且将取指周期缩短最高4倍、将计算周期缩短达16倍。

这些是Arm架构针对ML和AI的优化，Graviton其实也做了很多自己的进一步优化。比如面向大语言模型的推理应用时，Graviton针对int4和int8内核进行了优化，从而更好支持这些低精度数据指令。

根据亚马逊云科技的数据，在Llama3-8B模型的推理应用里，当进行提示词处理和Token生成时，Graviton3比友商的第四代至强和第四代EPYC都取得了明显性能提升。那用了Graviton4之后，随着单核性能至少提升30%，整体AI能力更是降维打击前一代。

Graviton带来的第三个技术趋势，就是借助Graviton的加持，让亚马逊云科技这样的云计算公司更快从通用计算进军AI计算。未来的AI领域，大模型训练或许只是少数，而基于大模型的推理才是更加广泛的应用。这时算力就不完全是绝对且唯一的考虑因素，人们还需要思考更多关于功耗、成本、延时这些同样关键的指标。

很多人认为自研芯片是个投入极高的事情，事实也的确如此。但一旦芯片大规模量产部署，边际成本就会越来越低，自研芯片的成本优势甚至会在这个时候凸显出来。芯片界大神Jim Keller曾经说过，当摩尔定律驱使单颗芯片上晶体管数量不断增加的时候，单纯追求更多晶体管并没有意义，有意义的是如何把这些多出来的晶体管用起来。

通过自研芯片，能去掉很多自己业务场景中不会出现、或极少出现的情况，让芯片的每个晶体管都能用起来。相比之下，芯片厂商需要兼顾不同客户之间的通用性，所以会不得不各种「端水」，造成面积和晶体管的浪费。这也是为什么基于Graviton的云计算实例更便宜的本质原因。

其实，很多传统云计算或许还有一些「历史包袱」，比如成堆的历史代码都是面向x86架构开发的，移植到Arm架构需要一定的时间和努力。但面向AI、特别是大模型相关的应用时，x86和Arm几乎是站在同一条起跑线，这也给没有历史包袱的Arm架构在AI端的应用提供了新的机会。

图灵奖得主John Hennessy和David Patterson说过，当前是计算机架构的新黄金时代。他们做的一个重要预言，就是CPU的架构将朝着更加精简的方向发展。而这条预言，几乎已经被Graviton变成了现实。

Graviton引领的三个技术趋势或许只是表象，当人们几乎一致认为x86 CPU就是终极解法时、当人们认为AI芯片等同于GPU时，它为我们揭示了技术发展更多的可能，并由此带来芯片设计范式的变革——这或许才是Graviton给行业带来的更大意义。

亚马逊云科技re:Inforce 2024中国站即将拉开帷幕！

（注：本文不代表老石任职单位的观点。）

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
PIC32MX575F512H-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP64, 10 X 10 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-64	ECAD模型下载ECAD模型	$9	查看
STM32F429ZIT6TR	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ARTAccelerator, FMC with SDRAM, TFT	ECAD模型下载ECAD模型	暂无数据	查看
ATMEGA328P-PU	1	Microchip Technology Inc	IC MCU 8BIT 32KB FLASH 28DIP	ECAD模型下载ECAD模型	$3.98	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

PIC32MX575F512H-80I/PT

Microchip Technology Inc

32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP64, 10 X 10 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-64

查看

STM32F429ZIT6TR

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ARTAccelerator, FMC with SDRAM, TFT

暂无数据

查看

ATMEGA328P-PU

Microchip Technology Inc

IC MCU 8BIT 32KB FLASH 28DIP

$3.98

查看

从零到自研芯片王炸，亚马逊云科技做对了什么？

推荐器件

相关推荐