NVIDIA凭借生成式AI和通用智能体方面的研究获得NeurIPS奖

在NeurIPS这一关注机器学习、计算机视觉等领域的业界知名会议上，NVIDIA Research带来了60多个项目，并展示了开创性成果

两篇NVIDIA Research的论文凭借对AI和机器学习领域的贡献而荣获2022年NeurIPS奖。其中一篇研究的是基于扩散的生成式AI模型，另一篇则是关于如何训练通用智能体。

本周在新奥尔良举行的NeurIPS大会和下周的NeurIPS在线会议中，60多场讲座、学术海报会和研讨会均有NVIDIA的论文作者参加。

针对图像、文本或视频等模态的合成数据生成（SDG）是贯穿NVIDIA论文的一大关键主题。其他主题还包括强化学习、数据采集和增强、气候模型以及联邦学习。

NVIDIA学习和感知研究副总裁Jan Kautz表示：“AI是一项极其重要的技术。从生成式AI到自主智能体，NVIDIA在各个领域都取得了飞快的进展。在生成式AI领域，我们不仅在推动自身对基础模型理论的理解，而且还在为更轻松地创建逼真的虚拟世界和模拟做出实际的贡献。”

重构基于扩散的生成式模型的设计
基于扩散的模型已成为生成式AI领域的一项开创性技术。NVIDIA研究人员凭借对扩散模型设计的分析获得了优秀主流论文奖（Outstanding Main Track Paper）。他们所提出的改进措施能够显著提高这些模型的效率和质量。

该论文将扩散模型的各个组成部分分解成模块，帮助开发者明确可以调整的流程，进而提高整个模型的性能。研究人员表示，经过他们修改的模型在AI生成图像质量评估中获得了创纪录的高分。

在基于《我的世界》游戏的模拟套件中训练通用智能体
虽然研究人员长期以来一直在《星际争霸》、《Dota》、《围棋》等视频游戏环境中训练自主智能体，但这些智能体一般只擅长少数任务。因此，NVIDIA研究人员开始转向全球最热门的游戏《我的世界》，开发了一个用于训练通用智能体（一种能够成功执行各种开放式任务的智能体）的可扩展训练框架。

这个名为MineDojo的框架使智能体能够利用一个由7000多个维基百科网页、数百万个Reddit帖子和30万小时游戏录像所组成的大规模在线数据库来学习《我的世界》的灵活玩法（如下图所示）。该项目获得了NeurIPS委员会颁发的优秀数据集和基准论文奖。

作为概念验证，MineDojo的研究人员创建了一个名为MineCLIP的大型基础模型。该模型学会了将YouTube上的《我的世界》游戏视频与视频字幕（包含玩家叙述屏幕上的动作）相关联。通过MineCLIP，该团队训练出了一个能够在没有人类干预的情况下执行《我的世界》中若干任务的强化学习智能体。

创建构建虚拟世界的复杂 3D 几何体
本届NeurIPS上还展示了GET3D。这个生成式AI模型可根据其所训练的建筑物、汽车、动物等2D图像类别，即时合成3D几何体。AI生成的物体具有高保真的纹理和复杂的几何细节，并且以常用图形软件应用中所使用的三角网格格式创建，这使得用户可以十分轻松地将这些几何体导入3D渲染器和游戏引擎，以进行后续编辑。

GET3D即Generate Explicit Textured 3D 的缩写，正如其名，它具备生成具有显示纹理的3D 网格的能力。该模型是在NVIDIA A100 Tensor Core GPU上使用从不同相机角度拍摄的约100万张3D几何体的2D图像训练而成。该模型在单颗NVIDIA GPU上运行推理时，每秒可生成约20个物体。

AI生成的物体可用于构建为游戏、机器人、建筑、社交媒体等行业设计的数字空间，比如建筑物、户外空间或整座城市的3D表达。

通过对材质和光照的控制，改进可逆渲染流程
在6月于新奥尔良举行的最近一次CVPR会议上，NVIDIA Research发布了3D MoMa。这种可逆渲染方法使开发者能够创建由3D网格模型、覆盖在模型上的材质以及光照这三个不同部分所组成的3D物体。

此后，该团队在分离3D物体中的材质和光照方面取得了重大进展，这反过来又提高了AI生成几何体的可编辑能力，创造者们能够轻松地对在场景中移动的物体替换材质或者调整光照。
本次发布相关精彩视频已在NVIDIA中国西瓜视频账号发布，也可直接在附件下载使用：
3D MoMa 材质和光照演示

这项研究工作依靠的着色模型采用NVIDIA RTX GPU加速光线追踪技术，更为逼真。该成果正在NeurIPS大会上以海报形式展示。

提高语言模型生成文本的事实准确性
另一篇被NeurIPS收录的论文研究的是预训练语言模型的一项重大难题——AI生成文本的事实准确性。

由于AI只是通过关联单词来预测句子接下来的内容，因此为生成开放式文本而训练的语言模型往往会产生包含非事实信息的文本。在这篇论文中，NVIDIA研究人员提出了能够突破这一局限性的技术，这也是为现实世界应用部署此类模型的必要前提。

研究人员建立了首个能够衡量生成开放式文本语言模型事实准确性的自动化基准，并发现拥有数十亿参数的大型语言模型比小型语言模型的事实准确性更高。该研究团队提出了一项新的技术——事实性强化训练，以及一种新颖的采样算法，通过两者的结合，助力训练语言模型生成准确的文本，并且将事实性错误率从33%降低到15%左右。

目前，NVIDIA在全球共有300多名研究人员，团队专注的课题领域涵盖AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人技术等。进一步了解NVIDIA Research并查看NeurIPS收录的所有NVIDIA论文列表。