英伟达将芯片计算光刻提速40倍，2纳米提前到来？

3月21日晚，英伟达创始人兼CEO黄仁勋再次穿着标志性的皮衣亮相，并在2023年GTC大会上进行了主题演讲，介绍并发布了适用于节能加速数据中心的新芯片Grace和BlueField-3、让计算光刻变得更“聪明”的cuLitho技术、正在生产中的“现代化AI工厂”-NVIDIA DGX H100 AI超级计算机（以下简称DGX）以及通过一个浏览器就可以将DGX即时地接入每家公司的NVIDIA DGX Cloud。而最让人印象最深刻的，就是黄仁勋在本次演讲中多次提出的全新概念：“我们正处于AI的‘iPhone时刻’”。

黄仁勋介绍，所谓AI的“iPhone时刻”，即AI技术正在迎来爆发式增长，将成为数十年来最有前途的技术领域之一。因此，在此次GTC 2023上，英伟达发布了多款针对AI的最新技术。

让计算光刻变得更“聪明”的cuLitho

首先，英伟达在GTC会议上发布了cuLitho，该项技术是计算光刻领域的一项突破，能够用于先进制程芯片的设计和制造，可以让计算光刻变得更“聪明”，将速度提升40倍。

黄仁勋介绍，所谓计算光刻就是为芯片生产制作光掩模的技术，掩膜是一种平面透明或半透明的光学元件，上面有芯片加工所需的图案，按照是否需要曝光将图案转移到光刻胶层上。光刻加工过程开始后，通过控制光刻机的曝光和开关操作，可以将光束根据掩膜上的图案进行分割和定位，使得光束只照射到需要曝光的区域，从而将芯片上的图案转移到光刻胶层上，实施芯片光刻。因为每种芯片都要经历多次曝光，所以光刻中使用的掩膜数量不尽相同。NVIDIA H100（台积电4N工艺，800亿晶体管）需要89张掩膜，Intel的14nm CPU需要50多张掩膜。

此前“精雕细琢”的计算光刻依赖CPU服务器集群，而如今，英伟达最新发布的cuLitho，可以实现在500套DGX H100（包含4000颗Hopper GPU）完成与4万颗CPU运算服务器相同的工作量，但速度快40倍，功耗低9倍。

可见，GPU加速后，生产光掩模的计算光刻工作用时可以从两周减少到八小时。台积电可以通过在500个DGX H100系统上使用cuLitho加速，将功率从35MW降至5MW，从而替代用于计算光刻的4万台CPU服务器。黄仁勋表示，英伟达将继续与台积电、ASML和Synopsys合作，将先进制程推进到2纳米及更高精度制程。

加速又能降功耗的数据中心芯片Grace

过去的十年中，云计算每年增长20%，成为了价值1万亿美元的巨大行业，大约3000万台CPU服务器完成了大部分的处理工作。但随着摩尔定律的终结，CPU性能的提高也会伴随着功耗增加、碳排放超标等问题，云计算的发展因此受到限制。对此，黄仁勋指出，数据中心应当加速各种工作负载，既可以减少功耗，又可以节省能源，促进新的增长。

为了在云数据中心规模下实现高能效，英伟达推出了Grace。Grace包含72个Arm核心,由超高速片内可扩展的、缓存一致的网络连接，可提供3.2TB/s的截面带宽，Grace Superchip通过900GB/s的低功耗芯片到芯片缓存一致接口,连接两个CPU芯片之间的144个核。内存系统由LPDDR低功耗内存构成，以便在数据中心中使用，它提供可1TB/s的带宽,是目前系统的2.5倍，而功耗只是其八分之一。整个144核Grace Superchip模组的大小仅为5x8英寸,而内存高达1TB。

黄仁勋表示，Grace的性能和能效非常适合云计算应用和科学计算应用，在微服务方面,Grace的速度比最新一代x86 CPU的平均速度快1.3倍，而在数据处理中则快1.2倍，整机功耗仅为原来服务器的60%，云服务提供商可以为功率受限的数据中心配备超过1.7倍的Grace服务器，每台服务器的吞吐量提高25%。在功耗相同的情况下,Grace使云服务提供商获得了两倍的增长机会。

目前Grace正在进行样品调测阶段，华硕、Atos、GB、HPE、QCT Supermicro、Wistron和ZT都在为Grace构建系统。

可以加速云计算平台的BlueField-3

此外，在现代软件定义的数据中心中,操作系统在执行虚拟化、网络、存储和安全任务时，会消耗近一半的数据中心CPU核心和相关功耗。数据中心必须加速每个工作负载,从而降低功耗并释放CPU，给可创造收入的工作负载。

英伟达为此推出的NVIDIA BlueField是一款卸载并加速数据中心操作系统和基础设施软件。据了解，Check Point、思科、DDN、Dell EMC等超过二十个英伟达生态系统的合作伙伴，都在使用BlueField的数据中心加速技术来更高效地运行其软件平台。

目前BlueField-3已投入生产,并被领先的云服务提供商所采用以加速其云计算平台，比如百度、CoreWeave、京东、Microsoft Azure、Oracle OCI和腾讯游戏。

“现代化AI工厂”-NVIDIA DGX H100 AI超级计算机

黄仁勋表示，旗下的NVIDIA DGX H100 AI超级计算机（以下简称DGX）已成为AI领域的必备工具，他曾亲手将全球首款产品交给了OpenAl，自此之后，《财富》杂志评选出的100强企业中，有一半企业已经安装了DGX。

DGX配有8个H100GPU模组，通过NVLINK Switch彼此相连,以实现全面无阻塞通信，协同工作时,就像一个巨型GPU。而8个H100计算网络是AI超级计算机的重要系统之一，400 Gbps超低延迟的NVIDIA Quantum InfiniBand，具有网络内计算功能，可将成千上万个DGX节点连接成一台AI超级计算机。DGX现已全面投入生产。

微软宣布Azure将向其DGX开放私人预览版，Atos、AWS、Cirrascale、CoreWeave、戴尔、Gigabyte、谷歌、HPE、Lambda Labs、联想、Oracle、Quanta和SuperMicro也将很快开放系统和云服务，DGX的市场将获得了显著增长，

一个浏览器就可以接入DGX的NVIDIA DGX Cloud

英伟达还正式推出生成式AI及超级计算云服务——Nvidia DGX Cloud。黄仁勋介绍，该服务允许客户在云端访问其DGX，且用户只需要打开浏览器即可使用，十分简单快捷。目前，这一产品已经在Oracle云基础设施应用，不久也将在Microsoft Azure、Google云平台和其他平台使用。此外，黄仁勋表示，采用英特尔Sapphire Rapids处理器的DGX H100 AI系统已经正在生产中，未来将通过OEM和云服务合作伙伴的搭载的方式来面世。

4款全新生成式AI工作负载的推理平台

此外，英伟达还推出了四款推理平台。分别是适用于AI视频，可提供比CPU高出120倍的AI视频性能，同时能效提高了99%的NVIDIA L4；适用于图像生成，针对图形以及AI支持的2D、视频和3D图像生成进行了优化的NVIDIA L40；适用于大型语言模型部署的NVIDIA H100 NVL；适用于推荐模型的NVIDIA Grace Hopper。

这些平台将NVIDIA的全栈推理软件与最新的NVIDIA Ada、Hopper和Grace Hopper处理器相结合，包括今天推出的NVIDIA L4 Tensor Core GPU和NVIDIA H100 NVL GPU。各平台针对AI视频、图像生成、大型语言模型部署、推荐系统推理等需求激增的工作负载进行了优化。

黄仁勋表示：“生成式AI的兴起需要更加强大的推理计算平台。生成式AI应用的数量是无限的，它唯一的限制就是人类的想象力。为开发人员提供最强大、灵活的推理计算平台将加快新服务的创造速度，这些新服务将以前所未有的方式改善我们的生活。”