英伟达和AMD，GPU之外的下一个竞争高地

AMD对英伟达的攻势终于全面展开了。如果说新发布的MI300系列就像一把利刃插在英伟达的AI帝国版图上，那么接下来的这一步，才是AMD想要合纵连横、攻城掠地的开始。

近日举办的“AMD Advancing AI”发布会上，AMD 发布了最新一代AI产品MI 300X与MI 300A，分别锁定生成式AI和HPC/AI数据中心。除了尖端的算力，更大规模AI所必不可少的跨服务器加速卡互联方面，AMD CEO Lisa Su指出，“Ethernet is the answer”，表示将拥抱以太网，并联合Open Ethernet生态系统共同支持生成式AI。

而就在今年6月的Computex上，英伟达创始人兼CEO黄仁勋发布了全球首个AI构建的Spectrum-X以太网架构，通过Spectrum-4以太网交换机和BlueField-3 DPU的紧密耦合，提升了以太网的AI性能和能效。

不约而同的布局显示，随着生成式AI带来的计算规模的扩大和分布式计算趋势，AMD挑战英伟达市场地位的方式，除了GPU这个主战场，在以太网领域的竞争也将全面开启。

网络成为生成式AI算力瓶颈，改造势在必行

生成式AI给数据中心带来了新挑战，包括整体计算架构、网络通信平台以及相应的系统软件等，都需要进行全新设计。

这是因为，面对生成式AI激增的数据量，数据中心越来越需要整体运作。以往单一的、简单的应用，可能只需调用几台服务器即可，但是随着AI负载规模越来越大，甚至需要调动整个数据中心资源协同完成一项工作。也就是说，整个数据中心越来越成为一台“大计算机”，这就需要从底层对数据中心整体架构进行重塑，保证数据中心整体的效率和性能。而除了算力之外，通信网络也是数据中心的核心能力。

作为当今互联网诞生的根基，以太网非常有弹性，它可以支持TCP等传输层协议，可以基于传统的网络丢包机制来缓解网络拥塞。这种方式对业务的性能抖动不敏感，出现数据包丢失时，它会根据应用需求重新传输或直接放弃、几乎可以从任何地方重连。不过，对于高吞吐量的AI负载来说，根本负担不起丢包的代价，也无法接受抖动问题，因为这些都会对AI负载和性能产生巨大影响。

特别是对于生成式AI来说，大模型参数规模及数据集不断扩大，当一个大模型跑在成千上万个算力集群上时，采用的是分布式、紧耦合的计算方式，这时，整个系统的性能已经不仅取决于单一GPU、单一服务器，更取决于网络性能，对数据传输有着更高要求，这就需要对传统以太网进行“改造”，构建支持RoCE（RDMA over Converged Ethernet）的无损网络，做到不丢包，支持以太网RDMA，满足高带宽和高利用率需求。

大规模AI网络方案，天下苦英伟达久矣？

要谈论生成式AI对数据中心网络的深刻改变，还要多说几句数据中心计算范式的根本颠覆。在传统的计算系统中，CPU和内存是核心，GPU、NIC、NVMe等都是外设，PCIe是机内通信最重要的组件之一。而随着深度学习的到来，这一范式改变了，GPU成了计算的核心。如此一来，如果仍然依赖传统的通信组件，势必会遇到瓶颈。这也是为什么，英伟达专门推出NVLink、NVSwitch等GPU之间的连接方案，就是希望获得更高的互联带宽。

而对于跨设备之间的通信，RDMA(remote direct memory access)远端直接内存访问技术又是一个有意思的开始。它本质上是针对大规模分布式计算存储的场景，让网卡绕开CPU，配合远端服务器直接存取内存，能够加速服务器之间的交互，降低时延。

RDMA作为一种高性能网络通信技术，具有高带宽、低延迟、无CPU消耗、零拷贝等优点，InfiniBand就是RDMA技术的实现方式之一，不过，它需要专门的网卡和交换机来支持，带来了额外的硬件成本。目前，市场上主要有英伟达、英特尔、思科和HP等InfiniBand网络解决方案和配套设备提供商，据称，英伟达占有最高的市场份额，超过70%。

当前，大部分大语言模型都是基于英伟达NVLink+InfiniBand无损网络架构的超大规模数据中心来完成训练的。对于AMD来说，首先通过Infinity Fabric对标英伟达的NVlink，用于服务器内部的GPU互联。而在跨服务器的连接方面，AMD连同其他头部厂商看到的机会主要是：一是InfiniBand被英伟达主导，更广生态上欠缺通用性；二是需要专用设备支持，带来了组网的高成本，因此他们希望通过生态开放这一核心优势扩大影响力，以打开英伟达已经占据先机的市场局面。

随着深度学习模型越来越复杂，模型参数量越来越大，单个GPU服务器越来越难以满足模型参数大小存储要求和训练迭代速度要求，分布式多机多卡训练基本已成必备，RDMA网络作为AI大模型时代的底层通信技术，将发挥更加重要的作用。

在AMD近日的发布会上，以太网巨头博通、思科、Arista技术负责人均进行了分享。他们认为在当前的RDMA 环境下，超以太网协议有望支持百万节点互联，同时以太网的开放特性，能够让诸如LPO等新技术加速渗透，带来高性价比、高容量、高开放程度的AI网络。

“AMD Advancing AI”发布会上，Arista、Broadcom、Cisco与AMD的高层对话

英伟达和AMD网络路线之争，像iOS和安卓？

事实上，在英伟达的AI加速网络版图中，除了InfiniBand，也有基于开放以太网的方案，也就是今年发布的Spectrum-X以太网架构，专门针对以太网RoCE进行了端到端的优化，可对端到端网络进行编程。根据英伟达官方资料，Spectrum-X的核心是 Spectrum-4 以太网交换机、BlueField-3 DPU、LinkX高性能线缆/模块和NVIDIA端到端加速软件。

而AMD则主打一个开放之姿，在跨服务器的连接上，AMD旗帜鲜明地表示，以太网将成为AMD 用于构建集群的协议，因为以太网拥有更好的性能，更好的大规模集群能力，以及最为核心的开放性，希望与头部交换机厂商一起，降低组网成本、扩大以太网份额与性能，打造更高性价比的网络。

为使传统以太网更适合生成式AI等应用，AMD等组成的开放以太网生态表示，将提供基于以太网的开放、可互操作、高性能的全通信堆栈架构，以满足大规模人工智能和高性能计算不断增长的网络需求。并且将从物理层到软件层，对以太网堆栈的多个层进行更改。在相应的传输协议方面，希望提供比目前的RDMA 更好的以太网传输（仍支持 RDMA），在提供AI和HPC应用程序所需性能的同时保留以太网/IP的优势。

而根据英伟达方面的解释，有别于其他网络厂商的做法，他们相当于开创了新的以太网应用市场：区别于原来面向企业应用的以太网，多数只是收邮件、网络浏览等基本使用南北向网络流量的应用，或者是云上以太网，负载的效率不够高，会有长尾延时和抖动等情况。因此，英伟达专为生成式AI量身打造了以太网，针对RDMA、NetQ等进行了加速，而且可编程，在大规模高负载环境下能够提供更好的性能。

当然，业界并不止这些技术路线，随着HPC/生成式AI网络的不断发展，越来越多的企业开始推出自研的网络协议或解决方案，以满足特定需求或实现生态闭环等目标。例如谷歌的TPUv4则引入了内部自研的光电交换技术OCS，AWS使用自研的Nitro系统来为HPC与ML应用提供支持。国内厂商方面，腾讯云在其星脉网络中采用自研的星脉 RDMA 网络，阿里云磐久PredFabric采用自研的Solar-RDMA高速网络协议，华为超融合数据中心网络使用独创的iLossless智能无损算法……

放眼国内外相关厂商，在算力网络方面的路线主要是自有和开放技术两种方式，像极了iOS和安卓多年来的路线之争。选择了自有技术的道路，往往追求独立性和自主性，希望通过对技术的深度掌控，达到对产品性能和用户体验的极致追求，但通常也会面临更高的研发成本、更长的研发周期。而选择了开放道路，倡导技术的共享和开源，是希望通过合纵连横的方式，推动技术的发展和生态的快速成长。

写在最后

面向生成式AI这样一个新的任务场景，需要规模非常大的AI集群提供服务。当市场上没有任何以太网能够满足这样需求的时候，InfiniBand一度成为最好的选择。不过，由于以太网多年来形成的庞大的用户市场，很多基于云服务的软件都是基于以太网进行开发的，在以太网平台上运行也更为便捷，这也为什么，以太网成为英伟达和AMD在GPU之外的又一个必争之地。

你认为英伟达和AMD在以太网领域的路线之争是 “iOS和安卓”吗？你更看好哪种路线的前景？

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATXMEGA256A3BU-MH	1	Microchip Technology Inc	IC MCU 8BIT 256KB FLASH 64QFN	ECAD模型下载ECAD模型	$5.86	查看
AT90CAN128-16MUR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64QFN		$7.13	查看
MCF52258CAG66	1	Freescale Semiconductor	MCF522XX 32-bit MCU, ColdFire V2 core, 512KB Flash, 66MHz, QFP 144		$12.68	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATXMEGA256A3BU-MH

Microchip Technology Inc

IC MCU 8BIT 256KB FLASH 64QFN