AI大模型时代，为什么说英伟达做对了三件事？

在大模型主导的新一波AI潮流中，英伟达又一次稳稳地屹立在潮头。以ChatGPT为代表的大模型应用中，英伟达GPU成为必不可少的“入场券”。

然而，这些仅是起点。大模型绝非昙花一现，因为底层技术和产业生态已经形成了新的格局，它代表着AI从感知、理解世界到生成、创造世界的跃迁，正推动人工智能迎来下一个时代。

当大模型支撑的AI应用成为主流，也将对算力产生更多的需求。正如黄仁勋所说，计算正在以“光速”发展。他表示，“如果把加速计算比作曲速引擎，那么AI就是动力来源。大模型的非凡能力，使得公司产生了紧迫感，他们需要重新构思产品和商业模式。”

那么，在这决定性的时刻，英伟达的哪些决策将影响大模型的发展？并将对英伟达未来的业务产生驱动力？

一、打破推理算力瓶颈，推动普及化

ChatGPT爆火之后，4月初，其官网一度停止Plus付费项目，原因是需求量太大，以至于不得不暂停销售。这无疑暴露出了大模型应用阶段极大的算力缺口，并且要厘清的是——这是由于流量爆棚引发的推理算力缺口，其实也正预示着推理侧算力的巨大红利有待挖掘。

黄仁勋已经看到了AI大模型在面向用户时的“无限前景”。英伟达已经将创新的焦点之一锁定在了强大、灵活的推理计算平台上，以加速AI大模型的各种推理工作负载集。推出了为特定推理工作负载而优化的GPU和专用的软件：适用于AI视频的NVIDIA L4、适用于图像生成的NVIDIA L40、适用于大型语言模型部署的最新版本NVIDIA Hopper架构GPU、适用于推荐模型的NVIDIA Grace Hopper。

目前，AI大模型应用主要集中在文本和图片生成领域，且正在逐步渗透到音频、视频内容生成，未来将出现越来越多的多模态内容生成应用。对企业而言，针对特定场景的模型在成本和准确度方面都更具优势。不过，芯片性能和高效推理既是AI大模型走向大规模应用的基础，也是其实现飞跃式发展的瓶颈。因此，英伟达着眼于AI大模型推理工作负载，聚焦于图像、视频等领域推出了软硬件优化的平台。

其中，适用于AI视频的NVIDIA L4可提供比CPU高出120倍的AI视频性能，同时能效提高了99%，可提供更加强大的视频解码和转码能力、视频流式传输、增强现实、AI视频等；L40平台是Omniverse的引擎，针对图形以及AI支持的2D、视频和3D图像生成进行了优化；最新的Hopper架构GPU则拥有94GB内存和Transformer引擎加速，在数据中心规模，与上一代Ampere架构GPU相比，GPT-3上的推理性能提高了多达12倍；Grace Hopper适用于推荐模型，适用于图形推荐模型、矢量数据库和图神经网络。

二、大模型+云服务，打开AI应用场景

在基础算力平台之上，英伟达这一次罕见地延伸到了云服务领域，直接对接应用需求。

英伟达的AI大模型云服务目前看来主要包括两方面，首先是DGX Cloud，通过与微软Azure、Google Cloud和Oracle Cloud Infrastructure等合作，相当于“从浏览器上”即可实现将DGX AI超级计算机“带给每家公司”。

本质上，英伟达提供的AI云服务相当于是“操作系统”，从机器学习到训练、验证、推理，实现的是整体加速，并且所有这些运行在云上。“这是英伟达下一阶段发展的商业模式之一，让每一个企业客户都能触及到人工智能”，黄仁勋表示，将与主要的云服务提供商进行合作，推出英伟达AI云服务。

这些合作可以说是多赢的，也值得行业借鉴。对于英伟达来说，加快了把DGX算力带给初创企业和其他各类企业的节奏，进一步扩大了用户规模和影响力；对于云服务提供商来说，能够以提供云计算的方式融入英伟达的生态系统，获取更多用户；对于企业来说，能够通过月租的方式获取英伟达的DGX Cloud算力集群，这对动辄就是千亿甚至万亿参数的大模型开发、训练工作来说，可以更加便捷、高效地统筹和利用算力资源，也可以进一步扩展大型多节点训练工作负载的开发。

其次是全新的NVIDIA AI Foundations模型开发服务，涵盖语言、图像、视频和3D，相当于为AI驱动的应用构建自定义模型，加速企业落地AI大模型应用。

有了NVIDIA AI Foundations，企业可以使用自己的数据来定制基础模型，这既充分利用了企业的数据资产，又解决了基础模型的开发难题，节省了数据集项目中大量的时间和费用。这一策略可以说是相当高明，充分关注到了企业的需求和现有技术能力，帮助他们高效产出最有价值的工作。

针对一些主流应用场景，英伟达提供NeMo语言服务、Picasso图像、视频和3D服务，为智能聊天和客户支持、专业内容创作、数字模拟等任务构建专属的、特定领域的AI大模型应用。

此外，英伟达还发布了面向生物学（用于药物研发）的BioNeMo云服务新模型。它提供各种用于训练、运行推理和部署自定义生物分子AI模型的工具，有助于科研人员创建药物研发的AI Pipeline，目前已被 Evozyne 和 Insilico Medicine 等生物制药公司用于药物设计。

围绕着新的AI大模型应用，原有的IT基础设施、软件、云服务体系等都可能被重构，也将迎来新的发展机遇。而针对企业用户和垂直场景的云服务，将会进一步扩大各行各业的AI应用规模，挖掘出更多的数据价值。

三、围绕AI的算力节点集群化

历数英伟达近五代硬件架构，从Pascal、Volta、Turing、Ampere到最新的Hopper架构，可以看出英伟达不仅仅是通过工艺进行算力堆叠，而是通过不断创新找到AI的需求点，进行综合设计。

仅从整个硬件架构对于AI数值精度的演进思路来看，Pascal架构第一次引入FP16，到Hopper引入FP8，并且基于Hopper架构的GPU配有专门的Transformer引擎，旨在处理驱动ChatGPT类似的GPT模型。可以看出，英伟达的每代GPU架构都包括了针对当时甚至未来AI模型的前沿创新，也正是因为逐代的技术演进，它才积累了超强的GPU性能。

而这还远远不够。

英伟达正在形成多元的、集群化的硬件算力节点，以应对大模型时代的超强算力需求。这其中不仅包括更强的GPU，还有更强的CPU和互连技术，甚至还有针对更大规模网络基础设施所需的DPU。

用于数据中心的Hopper架构GPU、Grace Hopper和Grace CPU，基本可以佐证这一路线。

最新版本的Hopper架构GPU带有双GPU NVLink，可实现数倍的速度提升。

Grace CPU 则针对 AI 数据中心所需的性能和效率而设计，与当今基于 DIMM 的服务器相比，Grace 可提供每瓦2倍的性能、2倍的封装密度和超高内存带宽，以满足数据中心极为严苛的需求。

值得一提的还有Grace Hopper，它充分发挥了英伟达在CPU、GPU以及互连技术方面的优势，通过NVLink-C2C以900 GB/s 的速度连接CPU和GPU，所实现的数据传输和查询速度比PCIe 5.0快了7倍。

据了解，Grace Hopper超级芯片已开始样品供货，预计下半年将全面投产，最新版本的Hopper架构GPU也将于下半年面市。此外，前不久的GTC大会上，英伟达也宣布了BlueField-3 DPU投产的消息，它将从硬件架构设计方面满足软件定义网络的需求，实现性能加速，为业务应用释放CPU核心。

黄仁勋表示，Hopper通过 Transformer 引擎专为 GPT 进行了优化，最新的 MLPerf 3.0 凸显了 Hopper 的性能比上一代Ampere架构GPU高出 4 倍。“客户正在大规模采用 Hopper，以构建由数万颗通过 NVIDIA NVLink 和 InfiniBand 连接的 Hopper GPU 组成的 AI 基础设施”，他指出。

写在最后

摩尔定律正在放缓，面对AI大模型的算力拷问，挑战是来自于硬件、软件以及生态等多方面的。毕竟，AI大模型距离大规模产业应用并成为产业发展的底座，还有很长的路要跋涉，这不仅需要与场景深度融合的技术体系，也需要支持大模型落地的专业工具和平台，还需要开放的生态共同激发创新。

可以看出，英伟达在成为AI大模型的早期受益者时，紧迫感也是存在的。如何降低大语言模型的使用门槛、增强其通用性、与场景形成更紧密的结合……英伟达在这些方面已经开始了全方位的探索，也只有算力+模型+服务+生态结合起来，才能真正形成产业赋能，进一步推动AI大模型大规模应用的时代尽早来临。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MK70FN1M0VMJ15	1	Freescale Semiconductor	Kinetis K 32-bit MCU, ARM Cortex-M4 core, 1MB Flash, 150MHz, Graphics LCD, MAPBGA 256	ECAD模型下载ECAD模型	$18.16	查看
AT91SAM7X512B-AUR	1	Microchip Technology Inc	IC MCU 32BIT 512KB FLASH 100LQFP	ECAD模型下载ECAD模型	$15.51	查看
ATXMEGA128A1U-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 100TQFP	ECAD模型下载ECAD模型	$7	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MK70FN1M0VMJ15

Freescale Semiconductor

Kinetis K 32-bit MCU, ARM Cortex-M4 core, 1MB Flash, 150MHz, Graphics LCD, MAPBGA 256