加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 持续投入底层创新,自研芯片Amazon Graviton五年四代
    • 为生成式AI打造高性能自研芯片
    • 与英伟达高端GPU的合作进展
    • 写在最后
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

云厂商自研芯片,生成式AI时代的必然选择

2023/12/18
2346
阅读需 12 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

生成式AI时代,云计算将如何被重塑?作为17年前云计算的开创者,亚马逊云科技拥有广泛、深入的云服务基础和基础设施根基。根据PitchBook的数据, 目前有超过1000家独角兽公司或估值超过10亿美元的创业公司,其中超过80%的独角兽公司都将工作负载运行在亚马逊云科技上。而亚马逊云科技之所以能够持续引领科技创新,离不开从基础设施到存储、到计算芯片再到云服务等由下而上、由内而外的创新。

日前,在亚马逊云科技2023 re:Invent中国行北京站的主题分享环节,亚马逊云科技大中华区产品部总经理陈晓建就生成式AI趋势下,云计算基础产品的升级迭代、对生成式AI的支持等方面进行了介绍。其中,关于亚马逊云科技自研芯片的最新进展,以及与英伟达等芯片厂商在更先进算力资源方面的合作,既强调了生成式AI领域的生态打造,也从底层技术针对生成式AI进行了重塑。

持续投入底层创新,自研芯片Amazon Graviton五年四代

亚马逊云科技在全球范围内提供基础设施,据介绍已经覆盖了32个地理区域,并有5个区域即将推出,包括东南亚、欧洲、北美等。这些区域提供全球一致的体验,具有高可用性和灾难恢复能力。这种全球统一的高标准设计是实现业务系统韧性的基础,与此同时,每个可用区都是一个完全独立的数据中心,具有冗余的水、电、网络和连接。与最接近的云服务商相比,亚马逊云科技的数据中心数量多三倍,服务多60%,功能多40%。他们认为,只有做好全球底层的创新,客户才能无束缚地进行业务创新。

“高性价比以及更低能耗的算力,往往是企业选择云计算的根本出发点之一,也是亚马逊云科技早在十年前就深入底层技术直达芯片、持续进行自研芯片创新的原因”,陈晓建表示。

据了解,亚马逊云科技的自研芯片Amazon Graviton处理器基于ARM架构,从2018年问世至今,已经进行了四次重大迭代,每一代Graviton都带来大幅度的性能提升。其中,Graviton3比Graviton2整体性能提升高达25%,Graviton3可提供高达2倍的浮点运算性能,加密工作负载速度提升高达2倍,为机器学习工作负载提供高达3倍的性能,并且基于Graviton3的实例的网络带宽也高出20%,可以广泛用于科学计算、传统机器学习推理和媒体编码等工作负载,针对特定工作负载性能提升更多,如基于Spark SQL的性能提升28%,MySQL的性能提升38%。

根据最新消息,亚马逊云科技通过与光环新网和西云数据的紧密合作,在亚马逊云科技北京区域和宁夏区域推出了基于自研芯片Amazon Graviton3处理器的Amazon Elastic Compute Cloud(Amazon EC2)M7g通用型、C7g计算优化型和R7g内存优化型三款实例。这些实例均基于 Amazon Nitro System构建,与采用Amazon Graviton2的实例相比,整体性能提升高达25%,内存带宽提升50%,同时能耗更低,能效提升高达60%。其中,M7g 实例适用于如应用程序服务器、微服务、游戏服务器等,C7g 实例适用于如高性能计算、视频编码、游戏和基于CPU的机器学习推理加速等计算密集型应用程序,R7g 实例适用于如开源数据库、内存缓存和实时大数据分析等内存密集型工作负载。

而在最新的2023 re:Invent全球大会上,亚马逊云科技宣布推出最新一代Graviton4,据称是目前亚马逊云科技性能最强、最具能效的自研芯片,支持广泛的云上工作负载。与Graviton3处理器相比,Graviton4性能提升高达30%,独立核心增加50%以上,内存带宽提升75%以上,基于Graviton4的Amazon EC2 R8g实例目前已提供预览。

陈晓建谈到,“云原生处理器Amazon Graviton作为亚马逊云科技自研芯片战略的重要组成,在短短五年就推出了四代Graviton,每一代都保持了两位数百分比的性价比提升。我们非常高兴将Amazon Graviton3落地中国区域,并期待将最新的Graviton4尽快带给中国的客户,为客户广泛的云上工作负载带来更高性价比和能效。”

为生成式AI打造高性能自研芯片

面临生成式AI发展趋势,亚马逊云科技希望为千行百业应用生成式AI降低门槛。这其中就包括如何兼顾规模与成本,如何选择最适合业务场景的模型,如何用企业自己的数据定制并快速行动,当然还有如何充分保护数据安全隐私的前提下负责任地应用生成式AI。

为此,亚马逊云科技在生成式AI的端到端的三个不同层面展开持续投入:在底层,提供用于基础模型训练和推理的基础设施;在中间层工具层,提供使用基础模型进行构建的工具,以及模型定制、模型集成等能力;在顶层应用层,提供利用基础模型构建的应用程序。

其中在底层自研芯片方面,亚马逊云科技最新发布了用于生成式AI和机器学习训练的专用芯片Amazon Trainium2处理器。Trainium2专为以高性能训练具有数万亿个参数或变量的基础模型和大语言模型而构建。Trainium2 与第一代 Trainium 芯片相比,性能提升 4 倍,内存提升 3 倍,能源效率(每瓦性能)提升多达2倍。

Amazon EC2 Trn2 实例采用最新的 Trainium2,一个单独实例包含 16 个 Trainium 加速芯片。Trainium2 实例致力于为客户在新一代 EC2 UltraClusters 中扩展多达 100,000 个 Trainium2 加速芯片,并与 Amazon Elastic Fabric Adapter(EFA)PB 级网络互联,提供的算力高达 65 exaflops,客户可按需获得超级计算级别的性能。有了这个级别的规模,客户可在数周而非数月就能训练完成一个具有 3 千亿参数的大语言模型。通过以显著降低的成本提供最高横向扩展的模型训练,Trainum2 实例可以帮助客户解锁并加速生成式AI的新一轮创新。

此外,陈晓建还透露了亚马逊云科技内部完全自研和制造的一款量子计算芯片,它的独特之处在于,通过将比特翻转和相位翻转分离来实现纠偏,可以把未翻转的误差和向量反转减少100倍,整个硬件开销也会减少6倍。他强调,亚马逊云科技不仅致力于实用化产品的不断推出,也专注于前沿技术的不断投资,希望成为技术的引领者,持续为业界带来价值。

与英伟达高端GPU的合作进展

此外,在re:Invent 2023全球大会上,亚马逊云科技和英伟达宣布了几项最新合作:亚马逊云科技将提供首款搭载NVIDIA Grace Hopper超级芯片和亚马逊云科技UltraClusters技术的云AI超级计算机;首款使用英伟达最新芯片GH200 NVL32 的NVIDIA DGX云即将登录亚马逊云科技。

并且,两家公司共同开展了“Project Ceiba”合作项目,将全球最快的GPU驱动AI超级计算机和NVIDIA DGX云超级计算机用于NVIDIA AI的训练、研发、定制化模型的开发,它将拥有1.6万个最新的GH200超级芯片,提供65 ExaFLOPS的算力。

根据陈晓建的分享,13年前,亚马逊云科技就看到了GPU加速计算芯片的价值,亚马逊云科技是第一个把GPU带到云上的云供应商,现在GPU服务器已经广泛用于HPC、视频、AI工作负载等多种应用。近年来,亚马逊云科技在Amazon EC2 P3实例中率先提供了NVIDIA V100 GPU;今年早些时候,亚马逊云科技是全球第一家将英伟达H100 GPU和Amazon EC2 P5实例推出市场的主要云提供商,Amazon EC2 P5实例也提供了惊人的性能,在训练方面比Amazon EC2 P4实例快4倍,而成本只是P4的60%。

如今,双方将在云AI超级计算机方面展开最新合作,提供超前的计算能力。这是因为,就生成式AI所需的基础训练性能来说,业界需要的不只是飞快计算的GPU芯片,还需要一个真正高性能的服务器集群来训练所需的基础模型。

当前,跨节点的分布式训练已经成为训练大模型的标准范式,除了GPU单个芯片处理性能之外,卡之间的通信、主机节点之间的通信,都会成为影响整个集群训练的关键因素。据介绍,亚马逊云科技的Amazon EFA,提供3.2T的网络互联能力,客户可以在单个集群中部署多达两万个GPU芯片的超级规模集群,提供相当于20个ExaFLOPS的集成能力,等同于一台超级计算机。

写在最后

生成式AI给云计算业务带来的颠覆是全方位的,这应该是亚马逊云科技提出“重塑云计算“的根本原因之一,也是针对底层基础设施、中间工具层、顶层应用层进行投入的核心动力所在。

随着数据量越来越大、模型规模越来越大,算力的性价比将越来越被重视。与此同时,软硬件的协同、强大的数据基础等等都至关重要,这些都将是亚马逊云科技近年来重塑云计算的核心关注点。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
STM32F767ZIT6 1 STMicroelectronics High-performance and DSP with FPU, Arm Cortex-M7 MCU with 2 Mbytes of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, SDRAM, TFT, JPEG codec, DFSDM

ECAD模型

下载ECAD模型
$25.18 查看
STM32H750VBT6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 128 Kbytes of Flash memory, 1MB RAM, 480 MHz CPU, L1 cache, external memory interface, JPEG codec, HW crypto, large set of peripherals

ECAD模型

下载ECAD模型
$27.62 查看
STM32F429IET6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 180 MHz CPU, ART Accelerateur, Chrom-ART Accelerator, FMC with SDRAM, TFT

ECAD模型

下载ECAD模型
$23.92 查看

相关推荐

电子产业图谱

与非网资深行业分析师。主要关注人工智能、智能消费电子等领域。电子科技领域专业媒体十余载,善于纵深洞悉行业趋势。欢迎交流~