英伟达：生成式AI继续变革数据中心，三大颠覆开启

生成式AI在掀起新一轮科技革命的同时，对现有基础设施、产业生态等都将带来深远影响。数据中心就是典型代表，生成式AI越是发展，对数据处理、传输、存储等需求就越大，进而对数据中心提出更高要求。Statista数据显示，到2024年，超大规模数据中心数量可能超过1000个，比五年前增加一倍。

而不光是规模和数量上的变化，传统数据中心由内而外都在被重塑。正如NVIDIA CEO黄仁勋所说：“每一个数据中心、每一台服务器，都要具备生成式AI负载的能力”。

现有数据中心支撑生成式AI并不是一件容易的事情，因为随着负载规模的增大，往往需要在整个数据中心层面进行计算，推升了分布式计算场景的需求。这意味着，数据中心需要从计算、网络、生态等层面开始颠覆创新和产业合作，NVIDIA近期的一些进展就已经显现出这些趋势：首先离不开GPU算力平台的持续升级和攀高；其次，颠覆的触角已经深入到数据中心网络层；第三，在生态建设方面，NVIDIA也在与各科技巨头围绕生成式AI进行深入合作，共同为开发、应用降低门槛，并且在前沿计算领域展开合作和布局。

“巨型GPU”E级超算性能，助力生成式AI创新

高算力是当前发展生成式AI的核心需求，而NVIDIA高端GPU已经成为生成式AI最核心的算力基座，从其最新的AI超级计算机来看，有望继续提升已有算力水平，站上E级AI超算的高度来助力生成式AI创新。

DGX GH200是一款可以提供1 exaflop性能与144 TB共享内存的超级计算机，大内存技术、互连技术、以及针对Transformer大模型的加速优化等都是其亮点。它将8个Grace Hopper架构的GPU与3个NVLINK互连，形成一个传输速度为900GB/s的Pod，然后将32个这样的Pod进行连接，通过一层开关，连接总共256个Grace Hopper架构的GPU。由此产生的ExaFLOPS Transformer Engine具有144 TB的GPU内存，相当于是一个“巨型GPU”。

除了1 exaflop性能，DGX GH200超大的内存容量值得特别关注——由256个Grace Hopper超级芯片提供的144TB共享内存空间，相比单个NVIDIA DGX A100 320 GB系统，内存提升了近500倍。这样大的内存，显然是为了支持更大规模的模型训练而准备的，能够进一步契合生成式AI高带宽、低延时的训练场景需求。针对深度学习推荐模型（DLRM）和大数据分析工作负载，使用DGX GH200可实现4倍到7倍的加速。

此外，DGX GH200也是第一款将Grace Hopper超级芯片与NVIDIA NVLink Switch System配对使用的超级计算机，采用的正是NVLink互连技术、NVLink Switch System，才能使256个GH200超级芯片相连，使它们能够作为一个“超级GPU”整体运行。

这里要说明的是，NVLink是和每一代NVIDIA GPU架构同步发展起来的高速互连技术。也正是得益于NVIDIA多年来在互联技术的积累，才能够为生成式AI所需的高弹性、超大AI算力规模的多GPU系统，带来更大的拓展可能，从而使DGX GH200系统中的所有GPU作为一个整体协同运行。

当然，软硬协同的也是必不可少的方式。除了上述硬件创新，算法引擎方面，GH200通过结合新的Transformer引擎与Hopper FP8张量核心，在大型NLP模型上能够提供比A100服务器高达9倍的AI训练速度和30倍的AI推理速度。此外还有DGX GH200所包含的NVIDIA软件，能够提供一站式解决方案，进一步提升了研发效率。

为生成式AI量身打造数据中心网络

数据中心网络已经成为重要的计算单元，它既包括计算能力，也包括通信能力，更重要的是，通过端到端的优化可以让计算和通信更好地融合，从而使得每一个关键层面都能承担起生成式AI所需的能力。

作为当今互联网诞生的根基，以太网非常有弹性，它可以支持TCP等传输层协议，基于传统的网络丢包机制来缓解网络拥塞，对业务的性能抖动并不敏感。出现数据包丢失时，它会根据应用需求重新传输或者直接放弃、几乎可以从任何地方重连。

但是，高吞吐量的AI负载根本负担不起丢包的代价，也无法接受抖动问题，因为这些都会对AI负载和性能产生巨大影响。特别是对于生成式AI来说，大模型参数规模及数据集不断扩大，当一个大模型跑在成千上万个GPU集群上时，采用的是分布式、紧耦合的计算方式，这时，整个系统的性能已经不仅取决于单一GPU、单一服务器，更取决于网络性能，对数据传输有更高的要求，这就需要对传统以太网进行“改造”，构建支持RoCE（RDMA over Converged Ethernet）的无损网络，做到不丢包，支持以太网RDMA，满足高带宽和高利用率需求。

NVIDIA最新的Spectrum-X加速网络平台就是这一理念，该平台的核心是Spectrum-4以太网交换机、BlueField-3 DPU、LinkX高性能线缆/模块和NVIDIA端到端加速软件。

其中，BlueField-3 DPU可以对于网络中遥测数据进行探测，通过主动采集Spectrum-4遥测机制生成的拥塞状况数据，在拥塞发生的早期阶段就提前调节速率以发送数据。通过实时检测拥塞点，用可编程拥塞控制技术，来监控和控制数据流，从而实现不同工作负载之间的性能隔离。

此外，通过可编程拥塞控制实现的业务性能隔离技术也非常关键。在云端跑多个训练任务时，不同工作负载会影响彼此性能，而通过任务性能隔离，能够优化总体性能，让每个工作负载都达到理想的性能。

在生成式AI驱动下，数据中心向大规模、高算力、高性能方向飞速发展，在这一趋势下，网络连接越来越成为数据中心的核心竞争力。那么，该如何看待Spectrum-X加速网络平台的创新意义？首先，可以将它理解为NVIDIA针对生成式AI需求创造的一个新的网络场景；其次，当前一些成功的大模型已经初步验证了这一无损网络架构的效能，它为新一代AI工作负载扫清了障碍，可以提高基于以太网AI云的性能与效率，助力数据中心满足超大规模生成式AI工作负载需求。

生成式AI时代的生态建设

在生成式AI惊人的进展面前，企业对于“事半功倍”的诉求其实一直没变。不过，现实情况是，生成式AI数据的多样性、指数级的规模增长、以及场景的复杂要求，都对原有的基础设施带来挑战，只有通过有效的软硬融合创新、先进的生产力结合、跨生态的合作等，才能不断降低生成式AI的开发和使用门槛。

保护企业数据资产，安全创建生成式AI

首先，在生成式AI趋势下，企业越来越重视数据资产的价值，他们希望贴合不同业务应用、运行更加多样化的AI模型。如何消除企业对于数据安全的担忧？近日，NVIDIA和数据云企业Snowflake展开合作，使得企业能够在数据驻留的地方创建生成式AI应用，安全地构建定制化大语言模型。

基于NVIDIA NeMo开源工具包以及GPU加速计算，企业可以使用其Snowflake账户中的数据，为包括聊天机器人、搜索和总结等在内的生成式AI服务打造定制化的大语言模型。由于能够在不移动数据的情况下对大语言模型进行自定义，从而使得专有信息在Snowflake平台内得到充分保护和管理。

在数据云中扩展AI功能——这相当于是NVIDIA和Snowflake共同创建了一个“AI工厂”，帮助企业将其宝贵数据转化为自定义生成式AI模型。企业能够利用自己的专有数据（从数百太字节到拍字节的原始数据和策划性商业信息等），来创建和调优自定义大语言模型，支撑具体的业务应用和服务，在降低成本和延迟的同时，还可以保障数据安全。这一合作有望通过数据云平台，把定制化的生成式AI应用带到不同的垂直领域，形成广泛落地。
NVIDIA与戴尔的一个合作项目同样着眼于帮助企业充分挖掘其数据资产潜能，旨在帮助企业在本地构建和使用生成式AI模型。

基于戴尔和NVIDIA基础设施和软件打造的Project Helix，提供一系列包含技术专长和预构建工具的全栈式解决方案，可以为企业提供特制的AI模型，使企业更加快速、安全地从目前还未被充分利用的大量数据中获得价值。通过高度可扩展的高效基础设施，企业可以创造出新一批生成式AI解决方案，也便于他们使用自己的数据做出可靠的业务决策。

降低Windows开发者的准入门槛

对于庞大的Windows用户群来说，生成式AI无疑是近年来的最大变革力和驱动力。日前在微软的Build开发者大会上，NVIDIA和微软就展示了一系列旨在满足生成式AI需求的先进技术，包括搭载NVIDIA RTX GPU的Windows 11 PC和工作站等。

对于下一代Windows应用来说，必须关注到开发人员如何以生成式AI为核心来进行开发，这包括在Windows PC上进行AI开发的工具、优化和部署AI的框架，以及如何进一步推进性能和能效的提升。

Linux操作系统显然是一个关键，由于AI开发通常是在Linux上进行的，过去几年，微软也致力于让Linux直接在Windows中运行，也就是适用于Linux的Windows子系统（WSL）。NVIDIA通过为WSL内部的整个NVIDIA AI软件堆栈提供GPU加速和支持，目前，开发人员已经可以使用Windows PC来满足本地AI开发需求，并支持GPU加速的WSL深度学习框架。

值得一提的是，NVIDIA RTX GPU在台式机工作站中提供48GB的大显存，这意味着开发人员可以在本地Windows系统上处理以前只能在服务器上处理的模型，并且还提高了AI模型本地微调的性能和质量。此外，RTX Tensor Core等GPU硬件加速可以加速微软工具链，有助于快速优化并部署模型，并且能够助力AI推理提升性能和能效。

随着AI即将进入几乎所有Windows应用，NVIDIA与微软这种软硬件层面的深度合作和优化，能够进一步为Windows开发者和用户降低生成式AI的准入门槛。

多个垂直应用中加速落地

除了上述基础设施生态方面的合纵连横，NVIDIA也在为生成式AI在垂直领域的落地部署铺平道路。

英矽智能是NVIDIA初创加速计划的高级成员，该公司正在使用NVIDIA BioNeMo，通过生成式AI加速早期药物研发流程。具体而言，是将生成式AI应用于临床前药物研发流程的各个环节：确定药物化合物可以靶点的分子、生成新的候选药物、衡量这些候选药物与靶点的结合程度，甚至预测临床试验的结果。使用传统方法进行这项工作需要花费超过4亿美元，耗时长达6年。但是通过生成式AI，英矽智能仅以十分之一的成本和三分之一的时间完成了这些工作，在项目启动两年半后就进入了一期临床试验。

目前，该公司利用AI平台研发的一种候选药物现在正进入二期临床试验，用于治疗特发性肺纤维化。

在内容创作领域，NVIDIA和WPP正在开发一个基于NVIDIA AI技术的Omniverse内容引擎，该引擎将使创作团队更加快速、高效、大规模地制作出高质量的商业内容，并且完全贴合客户的品牌。这个新引擎与3D设计、制造和创意供应链工具生态相连，使得WPP的艺术家和设计师能够将3D内容创作与生成式AI相结合，使其客户能够以个性化且吸引人的方式接触消费者。

在游戏领域，NVIDIA基于几十年来与游戏开发者合作的经验，正率先在游戏中使用生成式AI。近日，NVIDIA大刀阔斧地推出了全新的AI模型代理服务，也就是为云端及PC游戏角色产生定制化生成式AI模型。通过NVIDIA ACE for Games这个AI模型代理服务，中间件、工具及游戏开发者可以在游戏和应用中建立和部署定制的语音、对话及动画AI模型，利用AI驱动的自然语言交互技术，为游戏NPC带来更高的智能性，从而改变游戏交互体验。

布局前沿异构计算系统

在前不久的ISC大会上，NVIDIA、全球航空业的领导者罗尔斯·罗伊斯和量子软件公司Classiq，宣布了一项在量子计算领域的突破，用于提高喷气发动机效率。

这一合作的特别之处在于，GPU加速计算与量子计算在统一计算平台中得以结合。由NVIDIA Grace Hopper驱动了量子计算与经典计算相结合的GPU加速量子计算系统DGX Quantum，此外，NVIDIA还提供了一个连接GPU和QPU的开源编程模型NVIDIA CUDA Quantum，以实现量子与经典计算的紧密集成。

这一合作的背景是罗尔斯·罗伊斯致力于建造最先进的喷气发动机，但量子计算机仅能支持只有几层的电路深度，于是他引入GPU为量子计算未来做准备。通过采用NVIDIA的量子计算平台，两家公司设计并模拟了世界上最大的计算流体力学（CFD）量子计算电路，该电路测量深度为1000万层，有39个量子位。

这种同时使用经典计算和量子计算的方法，可以模拟喷气发动机设计的性能，有助于加快研发进程并进行更复杂的计算。对前沿研究领域所需的超级计算机来说，量子计算和GPU超级计算是异构系统中必不可少的组成部分，二者的融合，对于破解科研难题、突破发现界限非常重要，是未来在科学领域取得突破的关键之一，也是GPU加速计算在更广范围的科学与工业领域又一突破性进展。

写在最后

生成式AI带来的颠覆才刚刚开始，国内外众多科技公司纷纷将其视作重大的战略增长机会。

NVIDIA的AI增长故事开始于GPU，但绝不只有GPU。就像它在打造数据中心多元的、集群化的硬件算力节点时，GPU、CPU、DPU、内存技术、互连技术、引擎优化、配套的软件工具等等，无一不是关键，才能共同构建起了更高性能、更具能效的加速计算系统。有赖于这些积淀，NVIDIA正在形成生成式AI时代的强大增长曲线。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATXMEGA128A3U-MHR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64QFN		$7.31	查看
ATXMEGA16A4U-AUR	1	Microchip Technology Inc	IC MCU 8BIT 16KB FLASH 44TQFP	ECAD模型下载ECAD模型	$2.86	查看
TMS320F28335PGFA	1	Texas Instruments	C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85	ECAD模型下载ECAD模型	$29.61	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATXMEGA128A3U-MHR

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 64QFN