独家对话黄仁勋：关于生成式AI、算力能耗的一些追问

随着ChatGPT的爆火，黄仁勋最近频频强调：“我们正处于AI的iPhone时刻”。GTC上，他对媒体详解了这一观点的由来，在他看来——一个新的计算平台已经开发出来了。

过去大约每15年一波的科技潮流中，不论是PC革命、互联网革命、云计算、移动云等等，每一波潮流都创建出了一个新的计算平台，新的应用程序由此产生，业界用一种新的方式对计算机进行编程。而这一次，ChatGPT划时代地“使人类语言成为新的编程方式”。

“我们只需要告诉ChatGPT想要什么，它就可以理解我们的意图，给出令人惊叹的结果”，黄仁勋说道，“这意味着，人们可以用任何语言‘编程’，不论是英语、中文、法语、日语……人工智能的发展正因此而变得更加通用——这是一个临界点的时刻，也是非常重要的过渡。”

ChatGPT背后的AI超级计算机

毫无疑问，NVIDIA技术是这一波生成式 AI发展的基础，黄仁勋讲述了NVIDIA如何在变革初期就已参与进来。早在2016年，他就向OpenAI亲手交付了第一台NVIDIA DGX AI超级计算机，这也是支持ChatGPT大型语言模型突破背后的引擎。

黄仁勋表示：“如果把加速计算比作曲速引擎，那么AI就是动力来源。生成式AI的非凡能力，使得企业产生了紧迫感，他们需要重新构思产品和商业模式。”

值得一提的是，最初作为 AI 研究仪器使用的NVIDIA DGX超级计算机现已在世界各地的企业中全天候运行，用于完善数据和处理 AI。《财富》100 强企业中有一半都安装了DGX AI超级计算机。

而随着ChatGPT大型语言模型连接到办公自动化、办公应用程序和生产力应用程序等，AI将无所不在，而DGX 超级计算机将有望成为“现代AI工厂”。

无止境的算力需求下，如何实现“可持续”计算？

伴随生成式AI的爆发式应用，一个可预见的趋势是：AI模型、数据量将越来越大，导致所需的算力规模也越来越大。与传统计算相比，GPU的耗电量也是业界的“吐槽点”。那么，在这样的趋势下，NVIDIA如何应对能耗问题，从而符合绿色节能的可持续发展方向？

黄仁勋告诉<与非网>，可持续非常重要，也是NVIDIA的关注重点。他指出，AI加速计算在当今世界的计算中只占很小一部分。事实上，在过去40年的发展中，世界上绝大多数计算都是由摩尔定律驱动的。但是，在过去5年左右，摩尔定律开始急剧放缓，这是因为我们在逼近物理学的极限，我们可以缩小晶体管，但不能缩小原子。一个随之而来的挑战就是：如果摩尔定律结束，世界会发生什么？

“现在，我们需要的计算量更大了。但是，性能每提高10倍，或吞吐量提高10倍，功耗就增加10倍、成本增加10倍，这是不可持续的”，黄仁勋表示，“因此，我们首要做的一件事就是加快每一个可能的工作量。”

加速计算之所以有效，就因为它是全栈的。它发明了新的软件、新的算法、新的芯片、新的系统，对于每个应用程序域，通过执行这样全栈的操作，可以将计算性能显著提升。例如在计算光刻领域，作为EDA工作中计算最密集的应用程序，加速计算可以将其性能提高50倍、功耗和成本降低近10倍。

“这就是加速计算要做的事情，一项接一项工作负载、一个接一个应用程序域”，黄仁勋表示。比如在数据中心，通过加速工作负载，就可以减少电力使用，从而可以将其转移到新的增长中。“如果通过加速回收10倍的动力，想象一下我们有多少增长机会？”，他强调。

至于实现可持续发展的具体手段是什么？黄仁勋强调，“第一，我们必须加快应用程序的速度；第二就是AI。”他解释说，我们今天用于仿真模拟的方法是所谓的第一原理，它基本适用于物理定律。（注：在物理中，第一原理(First Principle)是指不需要任何经验设定与拟合参数，只从最基本的物理定律出发，就可以推出系统的基本性质。）

就像小狗能够跳起来接住抛到空中的球一样，它能够仅凭经验就预测到球的飞行位置，训练AI也是如此，“我们通过教AI物理定律，可以让AI有能力将计算量减少1万或10万倍。一旦AI可以利用知识、利用技能来预测物理，就可以有效节省计算量，从而节约能源”，黄仁勋指出。

加速计算光刻的“iPhone时刻”

正如上文中黄仁勋提到的计算光刻应用，随着当前生产工艺接近物理学极限，NVIDIA将加速计算引入到计算光刻领域，通过cuLitho助力ASML、TSMC和Synopsys等半导体头部企业加速新一代芯片的设计和制造。

据了解，TSMC、Synopsys 正在将NVIDIA cuLitho 计算光刻技术软件库整合到最新一代 NVIDIA Hopper架构GPU的软件、制造工艺和系统中。ASML也正在就GPU和cuLitho与NVIDIA 展开合作，并计划在其所有计算光刻软件产品中加入对 GPU 的支持。

在计算光刻领域引入加速计算的意义究竟是什么？

毋庸置疑，芯片产业几乎是每一个行业的基础。而在半导体制造过程中，光刻技术决定着芯片晶体管的尺寸，NVIDIA cuLitho 计算光刻技术软件库可为2纳米及更高工艺奠定基础。

类似于在摄影中将底片上的图像曝光到相纸上一样，光刻工艺利用光在硅晶圆上生成表示芯片设计的图案。计算光刻的作用就是补偿因衍射或光学、抗蚀剂和蚀刻邻近效应而导致的任何图像误差。借助OPC软件，开发者可以利用算法和数学方法以及大量仿真工作来操控光线，从而实现计算光刻过程。

这个过程涉及到利用各种各样的“假设”场景来找到正确的配置，以尽可能地提高转印图案的准确性。例如，在光线周围投射一些精心挑选的合适伪影，比如可以操控光线的衬线，可以在晶圆上生成更接近原始掩模的图案。

计算光刻作为一项资源密集型工作，通常需要大量数据中心来处理相关计算和仿真运行。这一过程可能需要很长的时间，即使是使用最强大的计算机也是如此。与此同时，开发者希望在芯片上封装更多的晶体管，这进一步增加了光刻的挑战，此外，计算工作负荷也是只增不减。计算光刻的仿真环节成为该过程最耗时的部分之一，因为光刻过程中每个步骤的详细模型都需要进行仿真。全芯片应用中可能有数百万个Tile，因此必须具有超快的掩模合成计算速度。

为了实现所需的性能提升，将cuLitho集成到Synopsys全芯片掩模合成解决方案和Proteus ILT逆光刻技术中并进行优化，可在新一代NVIDIA Hopper架构GPU上运行。如此一来，传统配置上需要40000个CPU的系统，仅需要500个NVIDIA DGX H100节能型GPU系统。计算光刻工艺的所有部分都可以并行运行，减少所需功耗并且运行时间从数周缩短到数天。

生成式AI需要充分的供应链准备

在生成式AI需求爆发式增长的背景下，黄仁勋认为，行业需要进行充分的供应链准备，以满足全球对AI的需求。

为了帮助企业部署处于快速发展的生成式 AI 模型，黄仁勋发布了用于 AI 视频、图像生成、大型语言模型部署和推荐器推理的推理平台。这些平台将NVIDIA的全套推理软件与最新的 NVIDIA Ada、Hopper和Grace Hopper处理器相结合，包括用于AI视频的NVIDIA L4 Tensor Core GPU和用于大型语言模型部署的NVIDIA H100 NVL GPU。

同时，NVIDIA AI Foundations云服务系列，也可以为需要构建、完善和运行自定义大型语言模型及生成式 AI 的客户提供服务，加速企业使用生成式 AI 的工作。

据黄仁勋透露，会将由八块旗舰版A100或H100芯片集成的DGX超级AI计算系统通过租赁的方式开放给企业，每月租金37000美元，以加速这轮大语言模型引领的AI浪潮。

据了解，通过与云服务供应商合作，NVIDIA在欧美提供DGX系统AI超级计算机的能力；在中国，也有特别定制的Ampere和Hopper芯片（A800和H800），通过中国的云服务供应商，比如阿里巴巴、腾讯、百度等企业提供落地能力。“我完全相信他们有能力去提供顶级的系统服务，对于中国初创企业来说，也一定有机会来开发自己的大语言模型”，黄仁勋表示。

写在最后

GTC期间，黄仁勋和OpenAI联合创始人、首席科学家Ilya Sutskever 进行了一场炉边对话。Ilya Sutskeve感慨自己从业20余年，看着AI从“小透明”到震惊人类：“它还是那个神经网络，只是变得更大，在更大的数据集上以不同的方式训练，但是训练的基础算法都是一样的，这是最令我惊讶的！”

黄仁勋也感慨，“在我们相识的十多年时间里，关于训练的模型和数据（从AlexNet训练到现在），已经扩大到100万倍。在计算机科学界，当时没有人会相信这十年间，计算量会扩大到100万倍。”

但这就是一个正在发生的事实——由于生成式AI，训练的规模增大了很多。而业界对于生成式AI的大量推理运用，正导致AI处于拐点。