3月21日晚,英伟达创始人兼CEO黄仁勋再次穿着标志性的皮衣亮相,并在2023年GTC大会上进行了主题演讲,介绍并发布了适用于节能加速数据中心的新芯片Grace和BlueField-3、让计算光刻变得更“聪明”的cuLitho技术、正在生产中的“现代化AI工厂”-NVIDIA DGX H100 AI超级计算机(以下简称DGX)以及通过一个浏览器就可以将DGX即时地接入每家公司的NVIDIA DGX Cloud。而最让人印象最深刻的,就是黄仁勋在本次演讲中多次提出的全新概念:“我们正处于AI的‘iPhone时刻’”。
黄仁勋介绍,所谓AI的“iPhone时刻”,即AI技术正在迎来爆发式增长,将成为数十年来最有前途的技术领域之一。因此,在此次GTC 2023上,英伟达发布了多款针对AI的最新技术。
让计算光刻变得更“聪明”的cuLitho
首先,英伟达在GTC会议上发布了cuLitho,该项技术是计算光刻领域的一项突破,能够用于先进制程芯片的设计和制造,可以让计算光刻变得更“聪明”,将速度提升40倍。
黄仁勋介绍,所谓计算光刻就是为芯片生产制作光掩模的技术,掩膜是一种平面透明或半透明的光学元件,上面有芯片加工所需的图案,按照是否需要曝光将图案转移到光刻胶层上。光刻加工过程开始后,通过控制光刻机的曝光和开关操作,可以将光束根据掩膜上的图案进行分割和定位,使得光束只照射到需要曝光的区域,从而将芯片上的图案转移到光刻胶层上,实施芯片光刻。因为每种芯片都要经历多次曝光,所以光刻中使用的掩膜数量不尽相同。NVIDIA H100(台积电4N工艺,800亿晶体管)需要89张掩膜,Intel的14nm CPU需要50多张掩膜。
此前“精雕细琢”的计算光刻依赖CPU服务器集群,而如今,英伟达最新发布的cuLitho,可以实现在500套DGX H100(包含4000颗Hopper GPU)完成与4万颗CPU运算服务器相同的工作量,但速度快40倍,功耗低9倍。
可见,GPU加速后,生产光掩模的计算光刻工作用时可以从两周减少到八小时。台积电可以通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,从而替代用于计算光刻的4万台CPU服务器。黄仁勋表示,英伟达将继续与台积电、ASML和Synopsys合作,将先进制程推进到2纳米及更高精度制程。
加速又能降功耗的数据中心芯片Grace
过去的十年中,云计算每年增长20%,成为了价值1万亿美元的巨大行业,大约3000万台CPU服务器完成了大部分的处理工作。但随着摩尔定律的终结,CPU性能的提高也会伴随着功耗增加、碳排放超标等问题,云计算的发展因此受到限制。对此,黄仁勋指出,数据中心应当加速各种工作负载,既可以减少功耗,又可以节省能源,促进新的增长。
为了在云数据中心规模下实现高能效,英伟达推出了Grace。Grace包含72个Arm核心,由超高速片内可扩展的、缓存一致的网络连接,可提供3.2TB/s的截面带宽,Grace Superchip通过900GB/s的低功耗芯片到芯片缓存一致接口,连接两个CPU芯片之间的144个核。内存系统由LPDDR低功耗内存构成,以便在数据中心中使用,它提供可1TB/s的带宽,是目前系统的2.5倍,而功耗只是其八分之一。整个144核Grace Superchip模组的大小仅为5x8英寸,而内存高达1TB。
黄仁勋表示,Grace的性能和能效非常适合云计算应用和科学计算应用,在微服务方面,Grace的速度比最新一代x86 CPU的平均速度快1.3倍,而在数据处理中则快1.2倍,整机功耗仅为原来服务器的60%,云服务提供商可以为功率受限的数据中心配备超过1.7倍的Grace服务器,每台服务器的吞吐量提高25%。在功耗相同的情况下,Grace使云服务提供商获得了两倍的增长机会。
目前Grace正在进行样品调测阶段,华硕、Atos、GB、HPE、QCT Supermicro、Wistron和ZT都在为Grace构建系统。
可以加速云计算平台的BlueField-3
此外,在现代软件定义的数据中心中,操作系统在执行虚拟化、网络、存储和安全任务时,会消耗近一半的数据中心CPU核心和相关功耗。数据中心必须加速每个工作负载,从而降低功耗并释放CPU,给可创造收入的工作负载。
英伟达为此推出的NVIDIA BlueField是一款卸载并加速数据中心操作系统和基础设施软件。据了解,Check Point、思科、DDN、Dell EMC等超过二十个英伟达生态系统的合作伙伴,都在使用BlueField的数据中心加速技术来更高效地运行其软件平台。
目前BlueField-3已投入生产,并被领先的云服务提供商所采用以加速其云计算平台,比如百度、CoreWeave、京东、Microsoft Azure、Oracle OCI和腾讯游戏。
“现代化AI工厂”-NVIDIA DGX H100 AI超级计算机
黄仁勋表示,旗下的NVIDIA DGX H100 AI超级计算机(以下简称DGX)已成为AI领域的必备工具,他曾亲手将全球首款产品交给了OpenAl,自此之后,《财富》杂志评选出的100强企业中,有一半企业已经安装了DGX。
DGX配有8个H100GPU模组,通过NVLINK Switch彼此相连,以实现全面无阻塞通信,协同工作时,就像一个巨型GPU。而8个H100计算网络是AI超级计算机的重要系统之一,400 Gbps超低延迟的NVIDIA Quantum InfiniBand,具有网络内计算功能,可将成千上万个DGX节点连接成一台AI超级计算机。DGX现已全面投入生产。
微软宣布Azure将向其DGX开放私人预览版,Atos、AWS、Cirrascale、CoreWeave、戴尔、Gigabyte、谷歌、HPE、Lambda Labs、联想、Oracle、Quanta和SuperMicro也将很快开放系统和云服务,DGX的市场将获得了显著增长,
一个浏览器就可以接入DGX的NVIDIA DGX Cloud
英伟达还正式推出生成式AI及超级计算云服务——Nvidia DGX Cloud。黄仁勋介绍,该服务允许客户在云端访问其DGX,且用户只需要打开浏览器即可使用,十分简单快捷。目前,这一产品已经在Oracle云基础设施应用,不久也将在Microsoft Azure、Google云平台和其他平台使用。此外,黄仁勋表示,采用英特尔Sapphire Rapids处理器的DGX H100 AI系统已经正在生产中,未来将通过OEM和云服务合作伙伴的搭载的方式来面世。
4款全新生成式AI工作负载的推理平台
此外,英伟达还推出了四款推理平台。分别是适用于AI视频,可提供比CPU高出120倍的AI视频性能,同时能效提高了99%的NVIDIA L4;适用于图像生成,针对图形以及AI支持的2D、视频和3D图像生成进行了优化的NVIDIA L40;适用于大型语言模型部署的NVIDIA H100 NVL;适用于推荐模型的NVIDIA Grace Hopper。
这些平台将NVIDIA的全栈推理软件与最新的NVIDIA Ada、Hopper和Grace Hopper处理器相结合,包括今天推出的NVIDIA L4 Tensor Core GPU和NVIDIA H100 NVL GPU。各平台针对AI视频、图像生成、大型语言模型部署、推荐系统推理等需求激增的工作负载进行了优化。
黄仁勋表示:“生成式AI的兴起需要更加强大的推理计算平台。生成式AI应用的数量是无限的,它唯一的限制就是人类的想象力。为开发人员提供最强大、灵活的推理计算平台将加快新服务的创造速度,这些新服务将以前所未有的方式改善我们的生活。”