新型AI超级计算机将256个Grace Hopper超级芯片连接为巨大的、1-Exaflop、144TB GPU,用于支持生成式AI、推荐系统和数据处理的巨型模型
NVIDIA今天宣布推出一款新型大内存AI超级计算机——由NVIDIA® GH200 Grace Hopper超级芯片和NVIDIA NVLink® Switch System 驱动的NVIDIA DGX™超级计算机,旨在助力开发面向生成式AI语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。
NVIDIA DGX GH200的超大共享内存空间通过NVLink互连技术以及NVLink Switch System使256个GH200超级芯片相连,使它们能够作为单个GPU运行。其提供1 exaflop的性能和144 TB的共享内存——相较2020年推出的上一代NVIDIA DGX A100内存大了近500倍。
NVIDIA创始人兼首席执行官黄仁勋表示:“生成式AI、大型语言模型和推荐系统是现代经济的数字引擎。DGX GH200 AI超级计算机集成了NVIDIA最先进的加速计算和网络技术来拓展AI的前沿。”
NVIDIA NVLink技术大规模扩展AI GH200超级芯片使用NVIDIA NVLink-C2C芯片互连,将基于Arm的NVIDIA Grace™ CPU与NVIDIA H100 Tensor Core GPU整合在一起,从而不再需要传统的CPU至GPU PCIe连接。与最新的PCIe技术相比,这将GPU和CPU之间的带宽提高了7倍,将互连功耗减少了5倍以上,并为DGX GH200超级计算机提供了一个600GB的Hopper架构GPU构建模块。
DGX GH200是第一款将Grace Hopper超级芯片与NVIDIA NVLink Switch System配对使用的超级计算机,这种新的互连方式使DGX GH200系统中的所有GPU作为一个整体协同运行。上一代系统在不影响性能的前提下只能通过NVLink把8个GPU整合成一个GPU。
DGX GH200架构相比上一代将NVLink带宽提升了48倍以上,实现在单个GPU上通过简单编程即可提供大型AI超级计算机的能力。
面向AI先锋的新研究工具
谷歌云、Meta和微软是首批有望接入DGX GH200来探索其用于生成式AI工作负载的能力的公司。NVIDIA还打算将DGX GH200设计作为蓝图提供给云服务提供商和其他超大规模企业,以便他们能够进一步根据他们自己的基础设施进行定制。
谷歌云计算副总裁Mark Lohmeyer表示:“构建先进的生成式模型需要创新的AI基础设施。Grace Hopper超级芯片的全新NVLink和共享内存解决了大规模AI的关键瓶颈,我们期待它在谷歌云以及我们的生成式AI计划中发挥强大的能力。”
Meta基础设施、AI系统及加速平台副总裁Alexis Björlin表示:“随着AI模型规模越来越大,它们需要可扩展的强大基础设施,以满足不断增长的需求。NVIDIA的Grace Hopper设计看起来能够让研究人员探索新的方法来解决他们面临的最巨大挑战。”
微软Azure基础设施企业副总裁Girish Bablani表示, “在以往训练大型AI模型是一项资源和时间密集型任务。DGX GH200 所具备的处理TB级数据集的潜力使得开发人员能够在更大的规模和更快的速度下进行高级别的研究。”
全新NVIDIA Helios超级计算机将推进研发
NVIDIA正在打造自己的基于DGX GH200的AI超级计算机,以支持研发团队的工作。
这台名为NVIDIA Helios的超级计算机将配备四个DGX GH200系统。每个都将通过NVIDIA Quantum-2 InfiniBand网络互连,以提高训练大型AI模型的数据吞吐量。Helios将包含1024个Grace Hopper超级芯片,预计将于今年年底上线。
完全集成,专为巨型模型而构建
DGX GH200超级计算机包含NVIDIA软件,可为最大的AI和数据分析工作负载提供一个交钥匙式全栈解决方案。NVIDIA Base Command™软件提供AI工作流程管理、企业级集群管理和多个加速计算、存储和网络基础设施的库,以及为运行AI工作负载而优化的系统软件。
此外还包含NVIDIA AI Enterprise,即NVIDIA AI平台的软件层。它提供100多个框架、预训练模型和开发工具,以简化生成式AI、计算机视觉、语音AI等生产AI的开发和部署。
供货情况
NVIDIA DGX GH200超级计算机预计将于今年年底上市。
观看黄仁勋在COMPUTEX 2023的主题演讲中介绍NVIDIA DGX GH200超级计算机。