在大模型主导的新一波AI潮流中,英伟达又一次稳稳地屹立在潮头。以ChatGPT为代表的大模型应用中,英伟达GPU成为必不可少的“入场券”。
然而,这些仅是起点。大模型绝非昙花一现,因为底层技术和产业生态已经形成了新的格局,它代表着AI从感知、理解世界到生成、创造世界的跃迁,正推动人工智能迎来下一个时代。
当大模型支撑的AI应用成为主流,也将对算力产生更多的需求。正如黄仁勋所说,计算正在以“光速”发展。他表示,“如果把加速计算比作曲速引擎,那么AI就是动力来源。大模型的非凡能力,使得公司产生了紧迫感,他们需要重新构思产品和商业模式。”
那么,在这决定性的时刻,英伟达的哪些决策将影响大模型的发展?并将对英伟达未来的业务产生驱动力?
一、打破推理算力瓶颈,推动普及化
ChatGPT爆火之后,4月初,其官网一度停止Plus付费项目,原因是需求量太大,以至于不得不暂停销售。这无疑暴露出了大模型应用阶段极大的算力缺口,并且要厘清的是——这是由于流量爆棚引发的推理算力缺口,其实也正预示着推理侧算力的巨大红利有待挖掘。
黄仁勋已经看到了AI大模型在面向用户时的“无限前景”。英伟达已经将创新的焦点之一锁定在了强大、灵活的推理计算平台上,以加速AI大模型的各种推理工作负载集。推出了为特定推理工作负载而优化的GPU和专用的软件:适用于AI视频的NVIDIA L4、适用于图像生成的NVIDIA L40、适用于大型语言模型部署的最新版本NVIDIA Hopper架构GPU、适用于推荐模型的NVIDIA Grace Hopper。
目前,AI大模型应用主要集中在文本和图片生成领域,且正在逐步渗透到音频、视频内容生成,未来将出现越来越多的多模态内容生成应用。对企业而言,针对特定场景的模型在成本和准确度方面都更具优势。不过,芯片性能和高效推理既是AI大模型走向大规模应用的基础,也是其实现飞跃式发展的瓶颈。因此,英伟达着眼于AI大模型推理工作负载,聚焦于图像、视频等领域推出了软硬件优化的平台。
其中,适用于AI视频的NVIDIA L4可提供比CPU高出120倍的AI视频性能,同时能效提高了99%,可提供更加强大的视频解码和转码能力、视频流式传输、增强现实、AI视频等;L40平台是Omniverse的引擎,针对图形以及AI支持的2D、视频和3D图像生成进行了优化;最新的Hopper架构GPU则拥有94GB内存和Transformer引擎加速,在数据中心规模,与上一代Ampere架构GPU相比,GPT-3上的推理性能提高了多达12倍;Grace Hopper适用于推荐模型,适用于图形推荐模型、矢量数据库和图神经网络。
二、大模型+云服务,打开AI应用场景
在基础算力平台之上,英伟达这一次罕见地延伸到了云服务领域,直接对接应用需求。
英伟达的AI大模型云服务目前看来主要包括两方面,首先是DGX Cloud,通过与微软Azure、Google Cloud和Oracle Cloud Infrastructure等合作,相当于“从浏览器上”即可实现将DGX AI超级计算机“带给每家公司”。
本质上,英伟达提供的AI云服务相当于是“操作系统”,从机器学习到训练、验证、推理,实现的是整体加速,并且所有这些运行在云上。“这是英伟达下一阶段发展的商业模式之一,让每一个企业客户都能触及到人工智能”,黄仁勋表示,将与主要的云服务提供商进行合作,推出英伟达AI云服务。
这些合作可以说是多赢的,也值得行业借鉴。对于英伟达来说,加快了把DGX算力带给初创企业和其他各类企业的节奏,进一步扩大了用户规模和影响力;对于云服务提供商来说,能够以提供云计算的方式融入英伟达的生态系统,获取更多用户;对于企业来说,能够通过月租的方式获取英伟达的DGX Cloud算力集群,这对动辄就是千亿甚至万亿参数的大模型开发、训练工作来说,可以更加便捷、高效地统筹和利用算力资源,也可以进一步扩展大型多节点训练工作负载的开发。
其次是全新的NVIDIA AI Foundations模型开发服务,涵盖语言、图像、视频和3D,相当于为AI驱动的应用构建自定义模型,加速企业落地AI大模型应用。
有了NVIDIA AI Foundations,企业可以使用自己的数据来定制基础模型,这既充分利用了企业的数据资产,又解决了基础模型的开发难题,节省了数据集项目中大量的时间和费用。这一策略可以说是相当高明,充分关注到了企业的需求和现有技术能力,帮助他们高效产出最有价值的工作。
针对一些主流应用场景,英伟达提供NeMo语言服务、Picasso图像、视频和3D服务,为智能聊天和客户支持、专业内容创作、数字模拟等任务构建专属的、特定领域的AI大模型应用。
此外,英伟达还发布了面向生物学(用于药物研发)的BioNeMo云服务新模型。它提供各种用于训练、运行推理和部署自定义生物分子AI模型的工具,有助于科研人员创建药物研发的AI Pipeline,目前已被 Evozyne 和 Insilico Medicine 等生物制药公司用于药物设计。
围绕着新的AI大模型应用,原有的IT基础设施、软件、云服务体系等都可能被重构,也将迎来新的发展机遇。而针对企业用户和垂直场景的云服务,将会进一步扩大各行各业的AI应用规模,挖掘出更多的数据价值。
三、围绕AI的算力节点集群化
历数英伟达近五代硬件架构,从Pascal、Volta、Turing、Ampere到最新的Hopper架构,可以看出英伟达不仅仅是通过工艺进行算力堆叠,而是通过不断创新找到AI的需求点,进行综合设计。
仅从整个硬件架构对于AI数值精度的演进思路来看,Pascal架构第一次引入FP16,到Hopper引入FP8,并且基于Hopper架构的GPU配有专门的Transformer引擎,旨在处理驱动ChatGPT类似的GPT模型。可以看出,英伟达的每代GPU架构都包括了针对当时甚至未来AI模型的前沿创新,也正是因为逐代的技术演进,它才积累了超强的GPU性能。
而这还远远不够。
英伟达正在形成多元的、集群化的硬件算力节点,以应对大模型时代的超强算力需求。这其中不仅包括更强的GPU,还有更强的CPU和互连技术,甚至还有针对更大规模网络基础设施所需的DPU。
用于数据中心的Hopper架构GPU、Grace Hopper和Grace CPU,基本可以佐证这一路线。
最新版本的Hopper架构GPU带有双GPU NVLink,可实现数倍的速度提升。
Grace CPU 则针对 AI 数据中心所需的性能和效率而设计,与当今基于 DIMM 的服务器相比,Grace 可提供每瓦2倍的性能、2倍的封装密度和超高内存带宽,以满足数据中心极为严苛的需求。
值得一提的还有Grace Hopper,它充分发挥了英伟达在CPU、GPU以及互连技术方面的优势,通过NVLink-C2C以900 GB/s 的速度连接CPU和GPU,所实现的数据传输和查询速度比PCIe 5.0快了7倍。
据了解,Grace Hopper超级芯片已开始样品供货,预计下半年将全面投产,最新版本的Hopper架构GPU也将于下半年面市。此外,前不久的GTC大会上,英伟达也宣布了BlueField-3 DPU投产的消息,它将从硬件架构设计方面满足软件定义网络的需求,实现性能加速,为业务应用释放CPU核心。
黄仁勋表示,Hopper通过 Transformer 引擎专为 GPT 进行了优化,最新的 MLPerf 3.0 凸显了 Hopper 的性能比上一代Ampere架构GPU高出 4 倍。“客户正在大规模采用 Hopper,以构建由数万颗通过 NVIDIA NVLink 和 InfiniBand 连接的 Hopper GPU 组成的 AI 基础设施”,他指出。
写在最后
摩尔定律正在放缓,面对AI大模型的算力拷问,挑战是来自于硬件、软件以及生态等多方面的。毕竟,AI大模型距离大规模产业应用并成为产业发展的底座,还有很长的路要跋涉,这不仅需要与场景深度融合的技术体系,也需要支持大模型落地的专业工具和平台,还需要开放的生态共同激发创新。
可以看出,英伟达在成为AI大模型的早期受益者时,紧迫感也是存在的。如何降低大语言模型的使用门槛、增强其通用性、与场景形成更紧密的结合……英伟达在这些方面已经开始了全方位的探索,也只有算力+模型+服务+生态结合起来,才能真正形成产业赋能,进一步推动AI大模型大规模应用的时代尽早来临。