随着ChatGPT的爆火,黄仁勋最近频频强调:“我们正处于AI的iPhone时刻”。GTC上,他对媒体详解了这一观点的由来,在他看来——一个新的计算平台已经开发出来了。
过去大约每15年一波的科技潮流中,不论是PC革命、互联网革命、云计算、移动云等等,每一波潮流都创建出了一个新的计算平台,新的应用程序由此产生,业界用一种新的方式对计算机进行编程。而这一次,ChatGPT划时代地“使人类语言成为新的编程方式”。
“我们只需要告诉ChatGPT想要什么,它就可以理解我们的意图,给出令人惊叹的结果”,黄仁勋说道,“这意味着,人们可以用任何语言‘编程’,不论是英语、中文、法语、日语……人工智能的发展正因此而变得更加通用——这是一个临界点的时刻,也是非常重要的过渡。”
ChatGPT背后的AI超级计算机
毫无疑问,NVIDIA技术是这一波生成式 AI发展的基础,黄仁勋讲述了NVIDIA如何在变革初期就已参与进来。早在2016年,他就向OpenAI亲手交付了第一台NVIDIA DGX AI超级计算机,这也是支持ChatGPT大型语言模型突破背后的引擎。
黄仁勋表示:“如果把加速计算比作曲速引擎,那么AI就是动力来源。生成式AI的非凡能力,使得企业产生了紧迫感,他们需要重新构思产品和商业模式。”
值得一提的是,最初作为 AI 研究仪器使用的NVIDIA DGX超级计算机现已在世界各地的企业中全天候运行,用于完善数据和处理 AI。《财富》100 强企业中有一半都安装了DGX AI超级计算机。
而随着ChatGPT大型语言模型连接到办公自动化、办公应用程序和生产力应用程序等,AI将无所不在,而DGX 超级计算机将有望成为“现代AI工厂”。
无止境的算力需求下,如何实现“可持续”计算?
伴随生成式AI的爆发式应用,一个可预见的趋势是:AI模型、数据量将越来越大,导致所需的算力规模也越来越大。与传统计算相比,GPU的耗电量也是业界的“吐槽点”。那么,在这样的趋势下,NVIDIA如何应对能耗问题,从而符合绿色节能的可持续发展方向?
黄仁勋告诉<与非网>,可持续非常重要,也是NVIDIA的关注重点。他指出,AI加速计算在当今世界的计算中只占很小一部分。事实上,在过去40年的发展中,世界上绝大多数计算都是由摩尔定律驱动的。但是,在过去5年左右,摩尔定律开始急剧放缓,这是因为我们在逼近物理学的极限,我们可以缩小晶体管,但不能缩小原子。一个随之而来的挑战就是:如果摩尔定律结束,世界会发生什么?
“现在,我们需要的计算量更大了。但是,性能每提高10倍,或吞吐量提高10倍,功耗就增加10倍、成本增加10倍,这是不可持续的”,黄仁勋表示,“因此,我们首要做的一件事就是加快每一个可能的工作量。”
加速计算之所以有效,就因为它是全栈的。它发明了新的软件、新的算法、新的芯片、新的系统,对于每个应用程序域,通过执行这样全栈的操作,可以将计算性能显著提升。例如在计算光刻领域,作为EDA工作中计算最密集的应用程序,加速计算可以将其性能提高50倍、功耗和成本降低近10倍。
“这就是加速计算要做的事情,一项接一项工作负载、一个接一个应用程序域”,黄仁勋表示。比如在数据中心,通过加速工作负载,就可以减少电力使用,从而可以将其转移到新的增长中。“如果通过加速回收10倍的动力,想象一下我们有多少增长机会?”,他强调。
至于实现可持续发展的具体手段是什么?黄仁勋强调,“第一,我们必须加快应用程序的速度;第二就是AI。”他解释说,我们今天用于仿真模拟的方法是所谓的第一原理,它基本适用于物理定律。(注:在物理中,第一原理(First Principle)是指不需要任何经验设定与拟合参数,只从最基本的物理定律出发,就可以推出系统的基本性质。)
就像小狗能够跳起来接住抛到空中的球一样,它能够仅凭经验就预测到球的飞行位置,训练AI也是如此,“我们通过教AI物理定律,可以让AI有能力将计算量减少1万或10万倍。一旦AI可以利用知识、利用技能来预测物理,就可以有效节省计算量,从而节约能源”,黄仁勋指出。
加速计算光刻的“iPhone时刻”
正如上文中黄仁勋提到的计算光刻应用,随着当前生产工艺接近物理学极限,NVIDIA将加速计算引入到计算光刻领域,通过cuLitho助力ASML、TSMC和Synopsys等半导体头部企业加速新一代芯片的设计和制造。
据了解,TSMC、Synopsys 正在将NVIDIA cuLitho 计算光刻技术软件库整合到最新一代 NVIDIA Hopper架构GPU的软件、制造工艺和系统中。ASML也正在就GPU和cuLitho与NVIDIA 展开合作,并计划在其所有计算光刻软件产品中加入对 GPU 的支持。
在计算光刻领域引入加速计算的意义究竟是什么?
毋庸置疑,芯片产业几乎是每一个行业的基础。而在半导体制造过程中,光刻技术决定着芯片晶体管的尺寸,NVIDIA cuLitho 计算光刻技术软件库可为2纳米及更高工艺奠定基础。
类似于在摄影中将底片上的图像曝光到相纸上一样,光刻工艺利用光在硅晶圆上生成表示芯片设计的图案。计算光刻的作用就是补偿因衍射或光学、抗蚀剂和蚀刻邻近效应而导致的任何图像误差。借助OPC软件,开发者可以利用算法和数学方法以及大量仿真工作来操控光线,从而实现计算光刻过程。
这个过程涉及到利用各种各样的“假设”场景来找到正确的配置,以尽可能地提高转印图案的准确性。例如,在光线周围投射一些精心挑选的合适伪影,比如可以操控光线的衬线,可以在晶圆上生成更接近原始掩模的图案。
计算光刻作为一项资源密集型工作,通常需要大量数据中心来处理相关计算和仿真运行。这一过程可能需要很长的时间,即使是使用最强大的计算机也是如此。与此同时,开发者希望在芯片上封装更多的晶体管,这进一步增加了光刻的挑战,此外,计算工作负荷也是只增不减。计算光刻的仿真环节成为该过程最耗时的部分之一,因为光刻过程中每个步骤的详细模型都需要进行仿真。全芯片应用中可能有数百万个Tile,因此必须具有超快的掩模合成计算速度。
为了实现所需的性能提升,将cuLitho集成到Synopsys全芯片掩模合成解决方案和Proteus ILT逆光刻技术中并进行优化,可在新一代NVIDIA Hopper架构GPU上运行。如此一来,传统配置上需要40000个CPU的系统,仅需要500个NVIDIA DGX H100节能型GPU系统。计算光刻工艺的所有部分都可以并行运行,减少所需功耗并且运行时间从数周缩短到数天。
生成式AI需要充分的供应链准备
在生成式AI需求爆发式增长的背景下,黄仁勋认为,行业需要进行充分的供应链准备,以满足全球对AI的需求。
为了帮助企业部署处于快速发展的生成式 AI 模型,黄仁勋发布了用于 AI 视频、图像生成、大型语言模型部署和推荐器推理的推理平台。这些平台将NVIDIA的全套推理软件与最新的 NVIDIA Ada、Hopper和Grace Hopper处理器相结合,包括用于AI视频的NVIDIA L4 Tensor Core GPU和用于大型语言模型部署的NVIDIA H100 NVL GPU。
同时,NVIDIA AI Foundations云服务系列,也可以为需要构建、完善和运行自定义大型语言模型及生成式 AI 的客户提供服务,加速企业使用生成式 AI 的工作。
据黄仁勋透露,会将由八块旗舰版A100或H100芯片集成的DGX超级AI计算系统通过租赁的方式开放给企业,每月租金37000美元,以加速这轮大语言模型引领的AI浪潮。
据了解,通过与云服务供应商合作,NVIDIA在欧美提供DGX系统AI超级计算机的能力;在中国,也有特别定制的Ampere和Hopper芯片(A800和H800),通过中国的云服务供应商,比如阿里巴巴、腾讯、百度等企业提供落地能力。“我完全相信他们有能力去提供顶级的系统服务,对于中国初创企业来说,也一定有机会来开发自己的大语言模型”,黄仁勋表示。
写在最后
GTC期间,黄仁勋和OpenAI联合创始人、首席科学家Ilya Sutskever 进行了一场炉边对话。Ilya Sutskeve感慨自己从业20余年,看着AI从“小透明”到震惊人类:“它还是那个神经网络,只是变得更大,在更大的数据集上以不同的方式训练,但是训练的基础算法都是一样的,这是最令我惊讶的!”
黄仁勋也感慨,“在我们相识的十多年时间里,关于训练的模型和数据(从AlexNet训练到现在),已经扩大到100万倍。在计算机科学界,当时没有人会相信这十年间,计算量会扩大到100万倍。”
但这就是一个正在发生的事实——由于生成式AI,训练的规模增大了很多。而业界对于生成式AI的大量推理运用,正导致AI处于拐点。