深度丨拒绝英伟达垄断，八大科技巨头组团推出UALink

作者 | 方文三

前言：

当前，众多企业正积极尝试引入标准PCIe交换机，并据此构建基于PCIe的架构体系，以实现对更多加速器的有效扩展。

尽管如此，业界领军企业对此类做法多持审慎态度，将其视为一种权宜之计。

相较之下，英伟达的NVLink技术已确立为行业内横向扩展技术的典范，获得了广泛认可。

如今，一个致力于打破专有技术壁垒的开放标准阵营正逐渐崭露头角。

英伟达的NVLink让厂商们心生不安

作为英伟达的核心技术，NVLink在GPU网络通信系统中占据重要地位，其对于提升数据传输效率和处理性能具有显著作用。

NVLink技术实现了GPU与支持该技术的CPU之间以及多个GPU之间的高带宽直接连接，从而大幅提升了整体性能。

然而，值得注意的是，NVLink技术并未向行业开放，这在一定程度上影响了其他厂商在相关领域的竞争力。

尽管英伟达的AI系统在市场上表现出色，但人们往往忽视了其背后的众多关键技术。

实际上，英伟达不仅拥有出色的GPU和软件，还在跨多个GPU和系统横向扩展工作负载方面拥有丰富的技术积累。

这些技术包括芯片上和封装上互连、用于服务器或pod中GPU到GPU通信的NVLink、用于超pod扩展的Infiniband以及连接到更庞大基础设施的以太网等。

IBM指出，NVLink技术使得CPU与GPU之间能够实现快速数据交换，从而提升了整个计算系统的数据吞吐量，有效克服了加速计算领域的一大瓶颈。

随着英伟达GPU芯片的更新迭代，NVLink技术也在不断进化。

从2017年的NVLink 2.0到2020年的NVLink 3.0，再到2022年的NVLink 4.0，每一次更新都带来了更高的性能和更广泛的应用场景。

在2024年的GTC大会上，英伟达推出了全新的NVLink 5.0技术，并与最新一代Blackwell芯片一同亮相。

这一技术极大地提升了大型多GPU系统的可扩展性，单个Blackwell Tensor Core GPU支持多达18个NVLink 100GB/s连接，总带宽达到1.8TB/s，较上一代产品提升了两倍之多。

此外，NVLink 5.0技术还支持跨节点扩展，通过NVLink Switch实现无缝、高带宽、多节点GPU集群的构建，从而满足数据中心级别的大型GPU需求。

利用NVLink技术，多服务器集群能够平衡GPU通信与增加的计算量，从而实现了更高的性能和效率。

例如，在GB200 NVL72等服务器平台上，NVLink技术的应用使得这些平台能够支持更为复杂的大型模型，并提供了更高的可扩展性。

这些优势使得英伟达在GPU网络通信领域继续保持领先地位，并为其在AI、数据中心等领域的广泛应用提供了有力支持。

八大科技巨头组团推出UALink

近日，包括谷歌、Meta、微软、AMD、英特尔、博通、思科、惠普在内的科技巨头联合宣布成立Ultra Accelerator Link（UALink）联盟，致力于开发人工智能数据中心GPU网络通信系统的全新行业开放标准。

此举旨在打破英伟达在市场上的垄断地位，推动行业内的竞争与创新。

UALink倡议由AMD牵头提出，得到了英特尔、博通等公司的积极响应与支持。

作为倡导组织的成员，思科、谷歌、惠普、Meta和微软等公司亦表示大力支持。

该倡议致力于构建一种内存语义结构，在首个版本规范中便支持扩展至1024个端点，以适应不同规模的AI计算需求。

UALink联盟计划推出的首个UALink 1.0版本将实现AMD的Instinct GPU和英特尔的Gaudi等专用处理器之间的直接数据传输，从而显著提升AI计算的性能与效率。

UALink的高速I/O通信设计与协议展现出强大的技术实力，彰显了联盟成员挑战市场领导者的决心。

UALink专家组将负责制定管理数据中心中不同GPU之间连接的标准，并预计于2024年第三季度向联盟成员提供这些标准。

此举将为其他厂商提供更多参与市场竞争的机会，进一步推动行业的创新与发展。

去年，Ultra Ethernet技术的出现为行业带来了增强型以太网作为Infiniband的替代方案。

今年，UALink的推出更是剑指NVLink，旨在打破其市场垄断地位。

UALink的推出为业界其他公司提供了追赶英伟达步伐的契机。

随着AI计算需求的不断增长，拥有一个稳健、低延迟且可高效扩展的网络对于提升计算性能至关重要。

UALink及行业规范的制定将有助于为AI工作负载创建开放的高性能环境，推动行业的持续进步。

UALink工作组将致力于制定规范，以界定AI计算容器组中加速器与交换机之间进行纵向扩展通信所需的高速低延迟互连。

通过标准化接口和实现方式，UALink将为新一代AI数据中心提供更加高效、灵活的AI和机器学习、高性能计算以及云应用程序解决方案。

微软、谷歌以及Meta等或是最大受益者

对于AMD和英特尔等业界巨头，UALink的推出为它们提供了一条复制NVLink和NVSwitch功能的路径，并促进了与其他企业的合作与成果共享。

博通等公司在UALink的助力下，可生产UALink交换机，有效推动其他公司的规模扩张。

AMD数据中心总经理Forrest Norrod明确指出，行业亟需开放标准以推动持续发展，并鼓励多家公司共同参与价值创造。首批UALink产品预计将在未来几年内陆续问世。

博通数据中心副总裁Jas Tremblay表示，作为UALink联盟的创始成员，博通一直致力于将AI技术融入数据中心领域，并支持开放生态系统协作，这对于实现网络扩展至关重要。

思科通用硬件集团执行副总裁Martin Lund亦强调，随着AI工作负载的不断增长，高性能互连技术的重要性日益凸显。

思科将积极参与UALink的开发，共同打造可扩展且开放的解决方案，以应对构建AI超级计算机所面临的挑战。

UALink的最大潜在受益者可能包括微软、谷歌和Meta等科技巨头。

这些公司已投入数十亿美元购买英伟达GPU以支持云服务和AI模型训练，并期望通过UALink降低对主导供应商的依赖。

目前，谷歌已拥有TPU和Axion定制芯片，亚马逊推出了多个AI芯片系列，微软推出了Maia和Cobalt芯片，而Meta也在不断完善其加速器阵容。

微软与OpenAI计划投入1000亿美元建造超级计算机，并将采用Cobalt和Maia芯片。UALink将成为连接这些高性能芯片的关键技术。

对于AMD和英特尔等公司而言，UALink不仅提供了一条复制NVLink和NVSwitch功能的途径，还促进了与其他企业的合作与成果共享。

英特尔今年的AI加速器销售额已达到数亿美元，尽管销量相对较小，但UALink有望助力其扩大市场份额。

AMD今年也将销售数十亿美元的MI300X产品，尽管与英伟达在AI领域的规模相比仍有差距，但UALink的推出将为其带来新的发展机遇。

此外，UALink的推广和应用还将为博通等公司创造新的商机。

这些公司可利用UALink技术生产UALink交换机，协助其他公司扩大规模，并在多家公司的加速器产品上广泛应用这些交换机，共同推动行业的发展和进步。

结尾：

值得一提的是，UALink联盟并未将英伟达排除在合作范围之外，然而，鉴于英伟达的商业利益主要聚焦于推广和维护其专有技术生态系统，预计其不会主动加入UALink联盟。

显而易见，UALink将对英伟达的市场优势造成一定削弱。

不过，从现实角度来看，要在短时间内取代英伟达的地位并不切实际。

据相关消息透露，首批UALink产品预计将在[几年]后推向市场。

然而，尽管面临诸多挑战，UALink联盟仍坚定地认为这一步是必须迈出的。

毕竟，没有任何人愿意看到某一领域长期被垄断性企业所主导。

部分资料参考：通信干货：《八大科技巨头联手挑战英伟达，新的行业开放标准UALink来袭》，云头条：《挑战英伟达 NVLink：8大IT巨头制定UALink标准》，有新Newin：《微软、谷歌、Meta以及AMD等硅谷巨头联手成立 UALink 制定统一标准》，SDNLAB：《英特尔、AMD等联手推出 UALink，剑指英伟达NVLink》，半导体行业观察：《芯片巨头组团，向英伟达NVLink开战》，问芯：《英特尔、AMD、谷歌、微软等组建[反英伟达联盟]，联手打造AI芯片互联新标准》

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MK70FN1M0VMJ12R	1	Freescale Semiconductor	32-BIT, FLASH, 120MHz, RISC MICROCONTROLLER, PBGA256, 17 X 17 MM, MAPBGA-256		暂无数据	查看
ATMEGA64-16AU	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 64TQFP	ECAD模型下载ECAD模型	$19.46	查看
STM32F407IGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下载ECAD模型	$13.79	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MK70FN1M0VMJ12R

Freescale Semiconductor

32-BIT, FLASH, 120MHz, RISC MICROCONTROLLER, PBGA256, 17 X 17 MM, MAPBGA-256