“独家前线报道!CDCC专家团队亲临GTC 2025大会现场,为您揭开这场科技盛会的神秘面纱。他们将以专业的洞察力和独到的见解,深入解读GTC 2025上的创新技术和未来趋势。
AI 界 “超级碗” 来袭
在科技飞速发展的今天,人工智能(AI)领域的每一次重大突破都备受瞩目。而英伟达的GTC大会,堪称 AI 界的 “超级碗”,每一届都吸引着全球目光,汇聚前沿技术,带来行业震撼。
今年,英伟达创始人兼CEO黄仁勋再次以标志性的皮衣造型登场,为我们带来一场持续超两小时的技术盛宴,其中的重磅发布更是让整个科技圈为之沸腾。接下来,就让我们一同深入这场盛会,看看黄仁勋究竟带来了哪些令人惊叹的内容。
Blackwell Ultra GPU
在本次GTC大会上,英伟达推出的Blackwell Ultra芯片无疑是硬件领域的一大亮点。
Blackwell Ultra由两颗台积电N4P(隶属于5nm家族的4nm加强版)工艺Blackwell GPU+Grace CPU+更大容量的HBM封装而来,即搭配了更先进的12层堆叠的HBM3e,显存容量提升至为288GB,和上一代一样支持第五代NVLink,可实现1.8TB/s的片间互联带宽。
以数据中心的实际应用为例,Blackwell Ultra芯片的AI性能是前代的1.5倍,这意味着在处理复杂的AI模型训练和推理任务时,能够更加高效地完成工作。同时,该芯片在能效方面也进行了优化,全面改用液冷散热,硬刚1.4KW功耗。
Blackwell Ultra芯片的推出,标志着AI计算焦点从大模型预训练向深度推理与复杂推理的转变,将为数据中心、企业AI工厂及自动驾驶、机器人等领域提供强劲的计算能力。
然而,顶级配置的GB300服务器价格突破300万美元(约合人民币2000万)!不过,亚马逊、微软等云巨头已火速下单,毕竟AI军备竞赛里,“贵”是你的问题,不是他的问题。
Blackwell Ultra NVL72:AI推理专用机柜
和GB200 NVL72一样,英伟达今年也推出了类似的产品Blackwell Ultra NVL72机柜,一共由18个计算托盘构成,每个计算托盘包含4颗Blackwell Ultra GPU+2颗Grace CPU,总计也就是72颗Blackwell Ultra GPU+36颗Grace CPU,显存达到20TB,总带宽576TB/s,外加9个NVLink交换机托盘(18颗NVLink 交换机芯片),节点间NVLink带宽130TB/s。
机柜内置72张CX-8网卡,提供14.4TB/s带宽,Quantum-X800 InfiniBand和Spectrum-X 800G以太网卡则可以降低延迟和抖动,支持大规模AI集群。此外,机架还整合了18张用于增强多租户网络、安全性和数据加速BlueField-3 DPU。
英伟达说这款产品是“为AI推理时代”专门定制,应用场景包括推理型AI、Agent以及物理AI(用于机器人、智驾训练用的数据仿真合成),相比前一代产品GB200 NVL72的AI性能提升了1.5倍,而相比Hopper架构同定位的DGX机柜产品,可以为数据中心提供50倍增收的机会。
根据官方提供的信息,6710亿参数DeepSeek-R1的推理,基于H100产品可实现每秒100tokens,而采用Blackwell Ultra NVL72方案,可以达到每秒1000 tokens。换算成时间,同样的推理任务,H100需要跑1.5分钟,而Blackwell Ultra NVL72 15秒即可跑完。
Blackwell Ultra NVL72和GB200 NVL72硬件参数
Vera Rubin
继Blackwell之后,Nvidia计划将于2026年下半年推出Vera Rubin(包含Vera Arm CPU + Rubin GPU) ,2027年下半年推出Rubin Ultra NVL576,2028年推出搭配Feynman GPU架构的产品。
Vera是Nvidia的首款定制CPU设计。Nvidia表示,Vera将比去年的Grace Blackwell芯片中使用的CPU快两倍。与Vera搭配使用,Rubin可以在进行推理时实现每秒50 petaflops,比目前Blackwell芯片每秒20 petaflops的速度高出一倍多。Rubin还可以支持高达 288GB HBM4内存。
Nvidia还对其GPU进行了更改。Nvidia表示,Rubin实际上是两个GPU。2027年下半年,Nvidia计划发布一款“Rubin Next”芯片,该芯片将四个芯片组合成一个芯片,使Rubin的速度翻倍。这款产品将搭载在一款名为Vera Rubin NVL144的机架上。NVIDIA在谈论 NVLink域时计算的是GPU裸片,而不是单个GPU芯片。因此NVL144是144个裸片,而不是144个芯片。
Rubin Ultra NVL576每机架600KW,FP4峰值推理算力高达15 EFLOPS,FP8训练算力达到5EFLOPS。每个GPU封装1TB HBM4e内存。Nvidia称其性能是今年推出的 Blackwell Ultra机架的14倍。
RTX PRO Blackwell 系列
英伟达还发布了RTX PRO Blackwell系列工作站和服务器GPU,这一系列产品通过突破性的加速计算、AI 推理、光线追踪和神经渲染技术,重新定义了AI、技术、创意、工程和设计专业人士的工作流。
其中,旗舰级的RTX PRO 6000系列拥有24,064个CUDA核心、752个Tensor核心188个RT核心。
RTX PRO 6000全系均配备96GB GDDR7显存(支持 ECC 校验),具备512 bit显存位宽,这意味着GPU板正反两面都使用了3GB GDDR7显存模块。
英伟达共发布12款同架构产品,包含双风扇设计(最高 600W TDP)的工作站版、涡轮鼓风式设计的集群工作站版,以及服务器专用版。
数据中心
NVIDIA RTX PRO 6000 Blackwell 服务器版
桌面平台
- NVIDIA RTX PRO 6000 Blackwell 工作站版
- NVIDIA RTX PRO 6000 Blackwell Max-Q 工作站版
- NVIDIA RTX PRO 5000 Blackwell
- NVIDIA RTX PRO 4500 Blackwell
- NVIDIA RTX PRO 4000 Blackwell
移动平台
- NVIDIA RTX PRO 5000 Blackwell
- NVIDIA RTX PRO 4000 Blackwell
- NVIDIA RTX PRO 3000 Blackwell
- NVIDIA RTX PRO 2000 Blackwell
- NVIDIA RTX PRO 1000 Blackwell
- NVIDIA RTX PRO 500 Blackwell
在AI领域,该系列GPU能够加速AI模型的训练和推理过程,使得研究人员能够更快地验证和优化模型,推动AI技术的发展。
DGX Spark 和 DGX Station
为了让AI开发更加普及,英伟达发布了由NVIDIA Grace Blackwell平台驱动的DGX Spark和DGX Station个人AI超级计算机。
DGX Spark体积小巧,尺寸类似Mac Mini,采用标准电源供电,起售价仅为3000美元,大大降低了AI开发的门槛。它搭载了新一代NVIDIA Blackwell Ultra平台,在FP4计算精度下可提供1 PFLOPS的AI性能,支持本地运行高达2000亿参数的 AI 模型。若将两台设备互联,更可扩展至4050亿参数模型的训练与推理。
DGX Station则是一款面向更广泛领域的大型桌面级AI计算中心,内部搭载强大GB300 Blackwell Ultra、784GB统一系统内存、内置800Gbps Nvidia网络,以及承诺的20 petaflops AI性能,据称将由华硕、戴尔、惠普等公司生产。
NVIDIA Isaac GR00T N1
英伟达宣布与DeepMind、迪士尼合作,开发机器人模拟的开源物理引擎Newton,并展示了搭载GR00T N1的人形机器人“Blue”。
黄仁勋在现场演示中强调,通用机器人时代已经来临。相比传统的工业机器人,通用机器人能够适应不同环境,具备更强的自主学习能力。AI不再局限于计算机系统,而是开始走入物理世界,成为可以执行任务的智能体。
Spectrum-X Photonics硅光网络交换机
随着AI工厂规模的不断扩大,对网络基础设施的要求也越来越高。在本次GTC大会上,英伟达推出的Spectrum-X Photonics硅光网络交换机,为AI工厂的网络连接带来了革命性的解决方案。
这款交换机创新地集成了光器件,采用了全球首创的200Gb/s光电一体化封装方案,将外部数字信号处理单元、1.6Tb/s交换ASIC与收发器高度集成,彻底重构了传统可插拔交换机的设计逻辑。通过优化信号传输路径,Spectrum-X Photonics将信号完整性提升了 63 倍,传统架构因连接器、PCB等介质导致22dB电气信号损失,而光电一体化封装光学方案仅产生4dB损耗。
在能耗方面,Spectrum-X Photonics表现出色。它减少了4倍的激光器数量,与传统方法相比,能源效率提高到3.5倍。在信号传输的可靠性上,大规模组网可靠性提高到10倍,部署速度提高到1.3倍,为AI工厂的稳定运行提供了有力保障。
Spectrum-X Photonics交换机具有多种配置,包括128个800 Gb/s端口或512个200Gb/s端口,总带宽可达到100Tb/s,以及512个800 Gb/s 或2,048个200 Gb/s端口,总吞吐量可达400Tb/s,能够满足不同规模AI工厂的网络需求。
软件开源
除了硬件,英伟达这次在软件开源方面也有几个新动作。
其中最重磅的,当属发布NVIDIA Dyamo,一个用于加速AI模型推理的分布式推理服务库。
老黄将其称为“AI工厂的操作系统”,核心目标在于提高推理性能的同时降低Test-Time算力消耗。按照英伟达的说法,在NVIDIA Blackwell上使用Dynamo优化推理,能让DeepSeek-R1的吞吐量提升30倍。
至于背后原因,主要在于Dynamo可以通过动态调整GPU资源应对请求波动,并优化数据卸载到成本更低的存储设备,从而降低推理成本并提高效率。
目前Dynamo已完全开源,支持PyTorch、SGLang、NVIDIA TensorRTyTM以及vLLM,在GitHub获取后即可将推理工作分配到多达1000个NVIDIA GPU芯片。
此外,英伟达还宣布开源新的AI推理模型——Llama Nemotron,该系列模型也曾出现在今年1月的CES上。
据介绍,Llama Nemotron基于开源Llama基础模型构建,采用英伟达最新技术和高质量数据集进行剪枝和训练,优化了计算效率和准确性。
行业合作新进展
英伟达一直注重与各行业企业的合作,通过合作推动AI技术在各个领域的应用和发展。在本次GTC大会上,英伟达也宣布了一系列与行业企业的合作成果。
英伟达与Ansys、Altair、Cadence、Siemens 和 Synopsys等在内的领先计算机辅助工程(CAE)软件供应商合作,使用NVIDIA Blackwell平台加速其仿真工具,速度提升高达50倍。这将有助于汽车、航空航天、能源、制造业和生命科学等行业在保持能效的同时,大幅缩短产品开发时间、降低成本并提高设计精度。
在汽车领域,英伟达与通用汽车合作,共同利用NVIDIA加速计算平台构建定制化AI系统,训练AI制造模型,优化通用汽车的工厂规划和机器人开发。通用汽车还将使用NVIDIA DRIVE AGX车载硬件,打造未来的高级驾驶辅助系统和车内增强型安全驾驶体验。
在医疗领域,英伟达与GE医疗合作,共同推进自主成像技术创新,重点开发自主X射线技术与超声应用。
在电信领域,英伟达与T-Mobile、MITRE、思科、Cerberus Capital Management 旗下公司ODC,以及Booz Allen Hamilton达成合作,共同研发AI原生6G无线网络硬件、软件及架构。为了无缝链接数千亿部手机、传感器、摄像头、机器人和自动驾驶车辆,下一代无线网络必须从根本上与AI深度融合。AI原生无线网络不仅能够为数十亿用户带来更优质的服务,还将在频谱效率(即单位带宽内的数据传输速率)方面树立全新标准。
本次GTC大会,英伟达在黄仁勋的带领下,展现出了强大的技术实力和创新能力。从硬件到软件,从模型到网络,英伟达的每一项发布都为AI的发展注入了新的活力。
未来,随着这些技术的不断应用和推广,AI将在更多领域实现突破,为我们的生活和工作带来更多的便利和创新。
尾记
在英伟达全球技术大会(NVIDIA GTC)的活动现场,康普隆重推出其最新创新成果 ——Propel XFrame™ 。作为Propel™高性能数据中心解决方案组合的最新成员,Propel XFrame解决方案是一款落地式光纤配线架光纤配线机架,旨在支持并满足数据中心和高性能计算设施当下和未来的需求。这一简洁且高效的解决方案能够实现高密度光纤连接的更快速、更灵活的部署与管理,同时还能优化您的空间和内部资源。
Propel XFrame解决方案亮点:
通过紧凑的外形设计和多种部署配置,优化数据中心空间利用。
通过支持多类标准化连接器的配线机架,最大限度地利用Propel组件和配线架,从而为数据中心管理者提供更多选择。
通过前端访问所有配线架,有望降低人工成本。此外,水平和垂直电缆管理可使布线保持有序,从而实现更快速、更准确的移动、添加和更改操作。
有关 Propel XFrame解决方案的更多信息(包括规格),请点击阅读原文访问官方网站。