加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

从零到自研芯片王炸,亚马逊云科技做对了什么?

07/25 10:30
1490
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

当高启强给泰叔说「风浪越大,鱼越贵」的时候,大概率没想到,这句话竟也适用于芯片行业

这几年是人工智能的大年,风口之上,不只有绿厂一骑绝尘,各家芯片大厂也纷纷调转船头,希望在AI的海里多捞几条大鱼。

相比之下,另外一个技术半球、曾经风浪也很大的领域——云计算,貌似消停了不少。消停到以至于很多人没注意一个相当重磅的消息:7月初,亚马逊云服务官宣,他们最新的Graviton4芯片,已经完成了大规模部署

这个消息之所以值得关注,是因为Graviton芯片本身就非常值得关注。遥想当年亚马逊云科技作为第一个吃螃蟹的人、以云计算公司的身份开始自研芯片,到现在Graviton4芯片大规模部署商用,这个过程中他们已经引领了三波重要的技术趋势:

趋势一:云厂商自研芯片,并由此构建独特的核心竞争力

趋势二Arm架构在云端、消费端等各个场景的广泛使用

趋势三:软硬结合开启了更多创新机会,AI也是其中之一

今天这篇文章就帮你详细拆解下,Graviton4的大规模商用部署,是否会在科技领域掀起另一波滔天巨浪。

分析技术趋势之前,我们必须先来回顾和梳理一下Graviton这颗芯片的成长历程。

2015年,亚马逊花3.5亿美元收购了一个以色列的芯片公司Annapurna Labs,这成为Graviton芯片诞生的开端。站在现在的上帝视角往回看,这次3.5亿美元的收购撬动了超过4000亿美元的全球云计算市场

事实上,两家公司在收购之前就已经有很密切的合作了。亚马逊云科技的当家技术叫做Amazon EC2,也就是Elastic Compute Cloud的缩写。这个东西是一个云计算的基础性平台,包括人工智能在内的很多应用,其实都是运行在这个平台上的一个个实例(instance)。所以这两家公司当时合作的重点,就是不断迭代Amazon EC2的性能和灵活性。但越迭代他们就越发现,软件优化的油水被榨的差不多了,各种瓶颈已经从软件转移到了硬件更聚焦的说,瓶颈就是芯片。

本质原因很简单,市面上卖的各种芯片大都是通用芯片,并不会根据某个客户的需求做定制优化,即便是亚马逊云科技这样的超级大客户也不行。

于是他们决定,要自研芯片。

在2016年的re:Invent大会上,亚马逊云科技的传奇工程师James Hamilton就从口袋里拿出了他们自研的第一颗数据中心芯片,用来支持2x25G以太网的数据包处理。当时给业界带来的震撼程度,丝毫不亚于ChatGPT的发布。因为人们突然意识到,原来云厂商能打破次元壁,去抢芯片公司的饭碗,而且可以做的很好。

更加震撼的是,Graviton的芯片架构没有选择当时占据99%市场份额的x86,而是选择了基于Arm的Neoverse内核打造。要知道当时行业的普遍认知是,Arm只适用于低功耗和移动端场景,PC都费劲,更不用说有着高性能高功耗的数据中心服务器场景,真的开眼了。

芯片工程师们也集体沸腾了,因为这相当于给他们开启了一片职业生涯的蓝海。原来我们也能去互联网和云计算公司,分享一波互联网的红利。

两年后,亚马逊云科技在2018年的re:Invent大会上正式发布了第一代Graviton处理器、2019年推出了Graviton2、2021年推出了Graviton3、2023年推出了Graviton4,保持了两年一更的节奏,而且每代都取得了极大的飞跃和提升。值得特别注意的是,Graviton是基于Arm架构的服务器CPU芯片,目前驱动了超过150种计算实例、全球超过5万家企业和开发者在使用,这里面的意义是不言而喻的。

具体来看Graviton4芯片,和前一代相比,核心数提升50%,达到96个;每个内核采用了当前最顶级的Arm Neoverse V2架构,这也是业界最早支持Arm v9架构的芯片之一。存储方面,Graviton4在缓存容量、内存容量和带宽等多个方面全面升级。比如每个核心的L2缓存扩大一倍到2MB,这样二级缓存总量达到192MB;同时支持12通道DDR5-5600,内存带宽提升75%,峰值带宽可以达到537.6GB/s。高速接口方面,Graviton4支持高达96通道的PCIe 5.0高速接口,非常适合数据中心云计算和云存储场景。

更重要的是,Graviton4的设计范式也在悄然改变。传统CPU的评价机制一般都是各种benchmark(基准测试),比如Microbench、SPEC等。但随着业务的不断细化、应用场景不断增加,原来那些统一的benchmark可能很难代表某个应用场景的需求。很可能成了一个跑分大杀器,但实际使用的时候达不到要求。根据亚马逊云科技在上海 Summit 上展示的材料,也充分对比了 Micro benchmark 和真实工作负载在 CPU 上的表现有很大差异。

于是从Graviton4开始,亚马逊云科技的造芯思路就从跑分转移到面向实际应用做设计,让芯片更加贴近使用场景,规避不必要的「内卷式」优化。

当然,这也是亚马逊云科技这样的云厂商才能有的「特权」。一个CPU的参数茫茫多,牵一发则动全身,所以特别需要知道哪些参数是重要的、哪些可能没那么重要。相比传统芯片设计公司,云厂商有大量实际场景和案例,对不同应用的侧重点和优化方向有第一手资料,相当于坐拥一个大宝藏了。而且这些应用更贴近自己的业务场景,也不需要为其他云计算公司的其他业务做妥协。

再详细聊聊前文说的Graviton带来的三个技术趋势。第一个趋势,就是在亚马逊云科技的造芯「示范效应」下,全球各家云厂商都纷纷开始自研芯片了,而且自研芯片给亚马逊云科技自己的业务也带来了实打实的提升。

根据亚马逊云科技的数据,和前一代相比,基于Graviton4的R8g实例性能提升30%,数据库性能提升40%。国外也有手快的人第一时间做了测试,在HPC、加密、代码编译、模拟仿真、光线追踪等实际应用场景下,Graviton4都取得了不错的提升。

比如做数字芯片仿真常用的Gem5模拟器,编译一个大型芯片的仿真需要很久,所以编译速度非常关键。但从测试结果可以看到,使用R8g实例后编译速度明显提升,不仅比前几代有大幅提升,也比大厂的产品有23%~49%的提升。

之所以Graviton能在短短几年取得如此亮眼的成绩,一个重要的原因就是采用了Arm指令集架构,这也是他们引领的第二个技术趋势。x86服务器芯片其实起源于客户端芯片,然后逐渐往里面增加服务器芯片需要的功能。而亚马逊云科技没有这样的包袱,他们就专注于服务器芯片本身,在利用了Arm架构低功耗、低延时的优点的同时,还结合自己的应用做了大量性能优化,也让Graviton成为了Arm架构在高性能计算领域的成功范例。

比如,Honeycomb公司在测试了R8g实例后发现,和x86架构相比,Graviton在降低尾延时方面效果最明显。与基于 Graviton3的 C7g、M7g 或 R7g 实例相比,R8g实例运行的副本数可减少 25%、中位数延迟降低20%,第99百分位延迟降低了10%

不仅如此,Graviton已经开始进军AI领域。它特别内置了可伸缩矢量扩展(SVE)技术,它是单指令多数据(SIMD)的进一步延伸,允许CPU自由使用不同的向量长度,从而实现更加灵活的数据访问和计算,这也是Arm架构支持AI计算的杀手级技术之一。在Graviton4中,每个内核就集成了4个128位的SVE-2矢量引擎,明显就是着重发力高性能计算和AI应用。

此外,Armv8.6-A架构中还特别添加了SMMLA和FMMLA,可以在不同宽度的阵列上同时执行通用矩阵乘法,并且将取指周期缩短最高4倍、将计算周期缩短达16倍。

这些是Arm架构针对ML和AI的优化,Graviton其实也做了很多自己的进一步优化。比如面向大语言模型的推理应用时,Graviton针对int4和int8内核进行了优化,从而更好支持这些低精度数据指令。

根据亚马逊云科技的数据,在Llama3-8B模型的推理应用里,当进行提示词处理和Token生成时,Graviton3比友商的第四代至强和第四代EPYC都取得了明显性能提升。那用了Graviton4之后,随着单核性能至少提升30%,整体AI能力更是降维打击前一代。

Graviton带来的第三个技术趋势,就是借助Graviton的加持,让亚马逊云科技这样的云计算公司更快从通用计算进军AI计算。未来的AI领域,大模型训练或许只是少数,而基于大模型的推理才是更加广泛的应用。这时算力就不完全是绝对且唯一的考虑因素,人们还需要思考更多关于功耗、成本、延时这些同样关键的指标。

很多人认为自研芯片是个投入极高的事情,事实也的确如此。但一旦芯片大规模量产部署,边际成本就会越来越低,自研芯片的成本优势甚至会在这个时候凸显出来。芯片界大神Jim Keller曾经说过,当摩尔定律驱使单颗芯片上晶体管数量不断增加的时候,单纯追求更多晶体管并没有意义,有意义的是如何把这些多出来的晶体管用起来

通过自研芯片,能去掉很多自己业务场景中不会出现、或极少出现的情况,让芯片的每个晶体管都能用起来。相比之下,芯片厂商需要兼顾不同客户之间的通用性,所以会不得不各种「端水」,造成面积和晶体管的浪费。这也是为什么基于Graviton的云计算实例更便宜的本质原因。

其实,很多传统云计算或许还有一些「历史包袱」,比如成堆的历史代码都是面向x86架构开发的,移植到Arm架构需要一定的时间和努力。但面向AI、特别是大模型相关的应用时,x86和Arm几乎是站在同一条起跑线,这也给没有历史包袱的Arm架构在AI端的应用提供了新的机会。

图灵奖得主John Hennessy和David Patterson说过,当前是计算机架构的新黄金时代。他们做的一个重要预言,就是CPU的架构将朝着更加精简的方向发展。而这条预言,几乎已经被Graviton变成了现实

Graviton引领的三个技术趋势或许只是表象,当人们几乎一致认为x86 CPU就是终极解法时、当人们认为AI芯片等同于GPU时,它为我们揭示了技术发展更多的可能,并由此带来芯片设计范式的变革——这或许才是Graviton给行业带来的更大意义。

亚马逊云科技re:Inforce 2024中国站即将拉开帷幕!

(注:本文不代表老石任职单位的观点。)

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MK70FN1M0VMJ12R 1 Freescale Semiconductor 32-BIT, FLASH, 120MHz, RISC MICROCONTROLLER, PBGA256, 17 X 17 MM, MAPBGA-256
暂无数据 查看
ATMEGA88PA-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP32, 7 X 7 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ABA, TQFP-32

ECAD模型

下载ECAD模型
$1.5 查看
ATXMEGA128A3U-MH 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64
$6.98 查看

相关推荐

电子产业图谱

微信公众号“老石谈芯”主理人,博士毕业于伦敦帝国理工大学电子工程系,现任某知名半导体公司高级FPGA研发工程师,从事基于FPGA的数据中心网络加速、网络功能虚拟化、高速有线网络通信等领域的研发和创新工作。曾经针对FPGA、高性能与可重构计算等技术在学术界顶级会议和期刊上发表过多篇研究论文。