加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 01、开始喽
    • 02、世界模型怎么做?
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

自动驾驶,世界模型是唯一解?

16小时前
335
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

用“造数据”的方式来创建一个“美丽新世界”,这个“唯一解”你同意吗?

在前一篇文章《开炒VLA,“端到端”过气了?》里,我们了解到一个新的概念“世界模型”。按照目前行业的理解,“端到端”的尽头,就是世界模型。

因为,自动驾驶光有端到端还不够。端到端的“黑盒子”特性,导致上限提高的同时拉低下限,存在“跷跷板效应”。无穷无尽的Corner Case,写不完的代码。

那么,如何解决这些问题?世界模型闪亮登场了。

01、开始喽

粗略统计一下,目前已经大约有超过10个车企和自动驾驶公司提出了世界模型。这里面,包括特斯拉英伟达、蔚小理华、地绝元魔,以及一些内部在推进此事的企业。

那么,我们要问,什么是世界模型?它是如何生成的?又是如何运行的?

追溯一下,“World Models”(世界模型)最早出现在机器学习领域。

2018年,机器学习顶会NeurIPS收录的《Recurrent World Models Facilitate Policy Evolution》论文,以认知科学中人脑Mental Model来类比世界模型,认为mental model参与了人类的认知、推理、决策过程。其中,最核心的能力——反事实推理(Counterfactual reasoning),是一种人类天然具备的能力。

另外,PLAM掌上电脑创始人杰夫·霍金斯的《千脑智能》中,也介绍了人工智能领域中非常重要的“世界模型”概念。

时间到了2024年2月16日,著名的Open AI公司发布了震惊全世界的“文生视频”大模型Sora,它可以根据文本自动生成一段60秒的视频。这成为世界模型的一个具象体现。

而在人工智能领域,包括李飞飞的World Labs,谷歌DeepMind等企业都发布了世界模型。Yann LeCun的Mate FAIR团队还发布了导航世界模型,根据前一秒的导航信息实时生成下一秒的轨迹。

如今,业内的共识是,一旦这个技术成熟,自动驾驶将迎来真正的爆发。

虽然,国内汽车行业现在还在“卷”从“两段式”的端到端到“一段式”的端到端,但是,按照博世智能驾控中国区总裁吴永桥的说法,从两段式端到端逐步过渡到一段式端到端,最终实现世界模型的应用,这一路线图正逐渐成为业内共识。这是一条车端到云端的路。

而且,梳理一下自动驾驶技术的发展路线,就会发现一个非常有意思的事情。

所谓“功夫在诗外”,这几年所有对自动驾驶发展产生推动的技术都不源于自动驾驶,而是人工智能。这里面,从BEV+Transformer,占用网络OCC,到端到端,世界模型。就像那句话,“自动驾驶本质上是人工智能的一个具身智能体现。”

世界模型仿佛打开了一个全新的窗口和世界,这里面包括探路者特斯拉。

2023年,特斯拉自动驾驶负责人在CVPR上介绍了“通用世界模型”。该模型可以通过过往的视频片段和行动提示,生成“可能的未来”全新视频。

Wayve也在2023 年发布了GAIA-1模型,它可以依靠视频、文本和动作的输入生成逼真的视频,能够生成分钟级的视频以及多种合理的未来场景,帮助自动驾驶模型的训练和仿真。

2024年GTC大会上,英伟达也展示了世界模型领域的新进展:The Next Wave of AI: Physical AI。

而国内车企里面,蔚来比较领先。2023年NIO Day上,蔚来公布其正在自研世界模型。一年后7月27日的科技日上,蔚来智驾负责人任少卿发布中国首个智能驾驶世界模型NWM,释放出更多技术细节。

NWM模型是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型。它能够在100毫秒内推演出216种可能发生的场景,并寻找到最优决策。

11月底,商汤绝影举办了自己的第一个AI DAY,亮出名为“开悟”的世界模型,可生成仿真数据,与量产实车采集的真实数据结合,共同重建物理世界。商汤绝影CTO肖枫还直接说:“‘地大华魔’头部格局,已经是过去式了。”

世界模型有这么厉害?

02、世界模型怎么做?

小马智行CTO楼天城给了世界模型极高的评价,“世界模型是最重要的事情,没有之一。”

那么,自动驾驶领域,世界模型如何发挥作用?按照地平线的解释,世界模型的作用有两个:

一是通过生成式大模型生成带有预测性质的视频数据,实现Corner Case多样化训练;

二是采用强化学习的方法认识复杂驾驶环境,从视频输出驾驶决策。

而构建世界模型的办法也有两个:一个是凭空想象,“无中生有”;另一个,是根据现有信息完善信息,比如输入文本、图片、视频,生成更多更丰富的视频。

作为自动驾驶的“大杀招”,世界模型解决了两大难题,一个是3D重建的高成本、低效率,另一个就是仿真无法“还原”真实数据的问题。可以说,世界模型包含了仿真的部分内容,但是又完全高于仿真。

这也产生了一个疑问,世界模型是应该凌驾于真实数据之上,还是仅仅作为真实数据的补充?

小马智行CTO楼天城认为,依靠现有的真实数据只能让智驾系统无限接近人,只有世界模型数据才能构建出更复杂的世界,最终让训练出来的系统超越人。换句话说,就是“自动驾驶的安全必须高于人类才有意义”。

所以,必须要有高于人类驾驶行为的世界模型数据训练出来的系统,才能优于人类。按照这个表述,世界模型应该凌驾于真实数据之上。

不过,这样一来,世界模型好坏的评估就很难有个量化的准确办法。只能大致看世界模型的几项能力:准确性,多样性,可控性和泛化能力。

目前的现状,是没有标准解,八仙过海、各显神通。

比如,地平线提出了世界模型的两个长远价值:一是更准确的世界理解,帮助减少智驾系统的代码量、延迟、网络负载、错误率等。二是泛化能力,世界模型可以形成对复杂驾驶环境的通用理解,而非对输入的重复依赖。

按照地平线的实践,其提出的“交互式博弈”,核心在于通过生成数据驱动实现模拟学习和强化学习。为了避免机器对数据的重复模仿,它必须要学会主动理解数据。这时候世界模型就承担了“系统教练”的角色,指导系统到底该怎么开。

而商汤绝影的“开悟”世界模型,基于商汤20 EFLOPS的云端算力,可以做到“(视频生成)时间最长为150秒、分辨率可达1080P、视角可以实现11V”。也即是,通过“实车道路采集+世界模型生成”双轮驱动,实现Corner Case数据生成。

商汤绝影认为这个难度很大,行业普遍都是生成1V或6V视角的视频,开悟直接干到11V,而且同时生成的视角画面越多,要保持时空一致性就更难,还要克服鱼眼视角的畸变。

至于特斯拉和元戎启行的思路,则是用一套系统覆盖两种商业模型,辅助驾驶和Robotaxi。然后用数据训练的方式不断提升系统的能力上限,这种逻辑下世界模型更像是现实世界数据的补充。

按照圆周智行的说法,目前的一个行业共识,是自动驾驶实现的一个大前提不仅仅是像人,而是要超越人。因之,真实世界的数据只能是无限接近人,而要超越人,世界模型是目前通往自动驾驶的唯一解。

那么,用“造数据”的方式来创建一个“美丽新世界”,这个“唯一解”你同意吗?

作者丨王小西

责编丨崔力文

编辑丨王   越

相关推荐

电子产业图谱

汽车公社 速度、深度、态度! 汽车公社-官方订阅号,专注于汽车产业和新科技领域的前沿资讯报道。