CES 2025展会上,英伟达推出了基石世界模型Cosmos,World Foundation Model基石世界模型,简称WFM。
物理 AI 模型的开发成本很高并且需要大量真实数据和测试。Cosmos 世界基础模型(WFM)使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型。开发者还可以通过微调 Cosmos WFM 构建自定义模型。
为加速机器人和自动驾驶汽车行业的工作,Cosmos 模型将以开放模型许可证的方式提供。开发者可以在 NVIDIA API 目录中预览首批模型,也可以从 NVIDIA NGC 目录或 Hugging Face下载整个系列的模型和微调框架。
Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber。
Cosmos主要功能,生成虚拟世界状态:Cosmos能根据文本、图像或视频的提示生成高度仿真的虚拟世界状态,适用于自动驾驶和机器人应用。
生成式模型:平台基于生成式模型快速生成与真实世界场景相似的数据,帮助开发者训练和评估现有的AI模型。
高级标记器和数据处理:Cosmos集成了高级标记器和加速视频处理管道,生成的数据在后续的模型训练中发挥更大的作用。
安全与合规:平台还提供了安全防护机制,确保数据的安全与合规。
开放模型许可:Cosmos将以开放模型许可的形式在Hugging Face和NVIDIA NGC目录中提供,支持开发者进行定制化应用。
Cosmos的技术原理
生成式世界基础模型(WFM):Cosmos使用先进的生成式模型技术,模型包括扩散模型和自回归Transformer模型,能生成与真实世界高度一致的场景。
- 驾驶环境模拟:Cosmos能生成各种天气和路况条件下的合成数据,为自动驾驶系统的训练提供丰富的场景。
- 策略模型优化:通过生成大量逼真的驾驶场景,Cosmos可以帮助自动驾驶系统在模拟环境中进行强化学习,优化决策策略模型,测试在不同场景下的性能。复杂环境适应性训练:Cosmos可以为机器人提供复杂环境的实时模拟,使其感知系统通过合成数据进行训练。
- 导航与任务执行:基于Cosmos生成的虚拟世界状态,机器人可以更好地理解和适应周围环境,实现更精准的导航和任务执行。
- 逼真场景生成:Cosmos能生成高度仿真的虚拟世界状态,适用于虚拟现实游戏和仿真训练。例如,开发者可以使用Omniverse创建三维场景,然后通过Cosmos将其转换为逼真的场景,使机器人在模拟环境中进行训练。
工业数字孪生:结合NVIDIA的Omniverse和Cosmos,可以创建工业数字孪生环境,用于工厂和仓库的模拟、测试和优化。这使得在复杂生产设施和配送中心网络中,能更好地进行手动设计、操作和优化。
Cosmos的应用案例
Uber自动驾驶开发:Uber作为首批采用Cosmos的公司之一,基于生成式AI能力,加速了安全、可扩展的自动驾驶解决方案的进程。为Uber的自动驾驶系统提供了丰富的合成数据,帮助其在不同驾驶场景下进行模型训练和优化,提升自动驾驶技术的安全性和可靠性。
小鹏汽车模拟训练:小鹏汽车也采用了Cosmos平台,通过生成各种天气和路况条件下的合成驾驶数据,对自动驾驶算法进行模拟训练。例如,在模拟雨、雪、雾、霾等恶劣天气下,以及城市道路、高速公路等不同路况的场景中,自动驾驶系统可以学习如何更好地感知环境、做出决策和执行操作,提高算法在真实街景中的表现。
1X机器人动态规划:1X公司用Cosmos的仿真引擎,为机器人提供了高保真的力学、运动学和动态交互建模能力。通过闭环模拟,1X机器人可以在虚拟环境中进行动态规划与环境适应性优化,在实际应用场景中实现更精准的导航和任务执行。
Waabi 是一家从自动驾驶汽车开始致力于开发物理世界生成式 AI 的先驱。该公司正在评估 Cosmos 在自动驾驶汽车软件开发和仿真中数据整理的应用。
Wayve 是一家致力于开发自动驾驶 AI 基础模型的公司。该公司正在评估使用 Cosmos 搜索用于提高安全性和验证的极端驾驶场景。
自动驾驶汽车工具链提供商 Foretellix 将使用 Cosmos 与 NVIDIA Omniverse Sensor RTX API大规模评估和生成高保真测试场景与训练数据。
我们来具体看一下Cosmos,英伟达搜集了2000万小时的视频,这些视频数据筛选或者说编审(curation)管线借助许多经过预训练的图像/视频理解模型,从中抽出1亿个2-60秒的片段,每个片段使用VLM视觉语言模型,每256帧提供一个视觉解说(caption),英伟达采用自回归即transformer和扩散diffusion两种模式来生成尽可能多的可用于训练的视频。英伟达使用一万张H100显卡,用时三个月,训练出了Cosmos,当然这个模型会一直升级,英伟达的运算资源自然是不成问题的。
英伟达打造了一种Ray-based orchestration的管线,用于端到端特别是强化学习训练中。
强化学习训练
图片来源:论文《Ray: A Distributed Framework for Emerging AI Applications》
Ray架构
图片来源:论文《Ray: A Distributed Framework for Emerging AI Applications》
预训练的Cosmos WFM生成高质量的3D视频并且包含正确的物理世界分布与反应。使用连续和分离潜在表示(latent representation)来训练视频。
图片来源:英伟达
WFM是基石,再根据下游具体应用做出对应的定制数据集,再进行训练。
华为DriveGPT4
这和自动驾驶领域将LLM微调一样,华为使用的是META开源的LLaMA 2,使用BDD-X和ChatGPT做指令微调。这些指令实际就是prompt,它包括动作命令、轨迹规划和具体指令。这些prompt需要从现实物理世界中搜集,并做一一对应。
Cosmos构成
图片来源:英伟达
Cosmos视频筛选步骤
图片来源:英伟达
上面是Cosmos视频类型构成,驾驶类占了11%,手动作和物体操纵占16%,人类动作和活动占10%,空间认知和导航占16%,第一人称视角占8%,自然动态占20%。由此看出,Cosmos主要还是面向机器人和具身智能的。
Cosmos的Tokenizer
图片来源:英伟达
Cosmos的Tokenizer可以对应各种类型的输入。
Cosmos扩散WFM模型1.0版架构
图片来源:英伟达
Cosmos扩散WFM模型1.0版架构,tokenizer分的很细,且是3D的,国内受限于计算资源,都尽量减少token数量,这会导致准确率下降。英伟达自然是丝毫不在意计算资源的。
多视角视频目前国内已知的只有华为的MagicDriveDiT。
Trajectory-conditioned generated samples from Cosmos-1.0-Diffusion-7B-Text2World-SampleMultiView-TrajectoryCond.,给定轨迹,生成需要的视频,同样是多视角的,图片只显示了前摄像头视角。
图片来源:英伟达
图片来源:英伟达
轨迹误差即TFE的单位是厘米,与真实即groundtruth的误差小于7厘米。
图片来源:英伟达
视频生成质量指标主要是FID和FVD,FID(Fréchet Inception Distance)是一种用于评估生成模型,尤其是在图像生成任务中,生成图像的质量和多样性的指标。它通过比较生成图像与真实图像在特定空间内的分布来工作。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。对于生成图像集和真实图像集,分别通过Inception网络(通常是Inception V3模型)计算它们的特征表示。这一步骤会得到每个图像集的特征向量。计算每个集合的特征向量的均值和协方差矩阵,并做对比。FVD和FID接近,相当于把FID的图像特征提取网络换成视频特征提取网络,其他都差不多。
注:这里的Ours指商汤的InfinityDrive,图片来源:商汤科技
商汤的要比英伟达优秀很多,但英伟达是3D且是多视角,能达到中上游水平已经是相当优秀了,英伟达在3D方面实力是最强的,没有之一。
Cosmos的数据保护
图片来源:英伟达
视频可能牵涉的隐私和安全问题,英伟达已经替你想过了,完全不用担心。
英伟达Cosmos的推出对于智能驾驶特别是端到端智能驾驶有了极大的帮助,厂家的数据成本下降至少95%,数据的质量还更好,对于那些靠搜集真实数据的纯数据集公司来说是灭顶之灾,对于极佳、商汤和华为之流世界模型厂家则提出了严峻的挑战。