作者 | 张马也,编辑 | 德新
智驾行业第一个开放的世界模型
大模型正重新定义智能汽车的体验。如果说上半年的北京车展上,还只是一部分头部车企围绕端到端与大模型领域率先展开探索,那到了前不久的广州车展,包括外资与合资车企在内,几乎所有厂商都在拥抱端到端与大模型的技术路线。而大模型也本该是AI公司的主战场。
11月27日,具有深厚AI背景的汽车科技公司商汤绝影举办了2024「绝影实力AI DAY」。商汤绝影展示了「驾-舱-云」三位一体的通用人工智能(AGI)产品体系与战略布局,发布了一系列基于AI大模型的全新产品:
基于多模态大模型和独有类人记忆框架的座舱产品「A New Member For U」
三阶不同梯度的端到端智驾量产方案;
以及产品化的世界模型「开悟」。
多模态座舱大模型结合记忆框架,使汽车不仅是智能工具,更赋予其「有趣的灵魂」;而绝影在智驾领域多年的探索,也形成了一系列工程化的量产方案;尤为值得关注的是,这次发布的世界模型「开悟」。目前,各大头部主机厂和Tier 1都在探索和研发世界模型,但还并没有特别成熟的产品问世。世界模型通过生成高质量仿真数据,推动端到端智能驾驶的发展。「开悟」可以说是第一个产品化的,并且将向汽车行业开放的世界模型。
商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚表示,基于世界模型,绝影打造出了真实数据和仿真数据的「双轮驱动」闭环,构建了车云一体的新范式。目前绝影的智驾方案,已量产交付广汽埃安、一汽红旗等3家车企6款车型。发布会上,商汤绝影还正式宣布与大卓智能、东风汽车等合作伙伴签订战略合作协议,在高阶智驾量产、端到端量产、AI云服务、AI大模型等领域开展全方位的深度合作。商汤绝影的AI大模型与端到端方案量产,正式拉开序幕。
让座舱拥有「有趣的灵魂」
在智能座舱领域,商汤绝影一直是量产的领跑者。据第三方数据,绝影座舱视觉AI软件市场份额连续5年位列行业第一,市面上你能看到的绝大部分智能车大概率都搭载了商汤绝影的座舱技术,比如蔚来、乐道、极氪、智己、小米等等。
座舱大模型从单模态走向多模态也是必然趋势。而在这次发布会上,绝影抛出了一个有趣的产品化新思路:汽车是否可以拥有「灵魂」,并最终融入用户家庭,成为一位「新成员」。
以往的车机交互,主要是工具导向,为用户提供基础的信息查询和问题解答服务;但在智能化时代,它应该能学习、进化,提供更主动,更懂用户的服务。沿着这种思路,商汤绝影打造了「A New Member For U」(你的家庭新成员),让智能汽车能够察言观色,时刻准备着主动提供专属服务,就像车主身边的家庭新成员。
例如,在旅途中后排孩子睡着了,智能座舱会主动调高空调温度、降低音乐音量,同时把底盘和驾驶模式调整为舒适模式,给小朋友一个舒适安心的休憩环境。
更重要的是,整个过程不需要用户挨个下指令,而是它观察、思考和推理之后提供主动的服务。王晓刚介绍,这位「家庭新成员」背后,商汤绝影研发了三大核心框架:
原生流式多模态大模型;
类人记忆框架;
Always-on持续运行框架;
原生流式多模态大模型能够综合理解文本、图像、音频、视频、3D等信息模态,包括人的表情、语气等,做到全场景的多模态感知。商汤绝影还针对车载场景进行定制,融合车端感知数据、车端场景,进行针对性训练。在全面感知的基础上,模型可以进行深度理解和推理思考,具备理解世界、理解人类的能力。
要让汽车拥有「灵魂」,就必须要有「记忆」,这是人类认知能力的基础。
王晓刚表示,有了「记忆」,车辆才能与你会产生默契,不断成长,直到与用户心有灵犀。类人记忆框架,也是商汤绝影这一座舱解决方案重要的差异化技术。它与人类的记忆机制相似,拥有临时记忆、长期记忆和场景记忆,三者结合让系统实现类人的记忆能力。
临时记忆,能记得一些瞬时信息,比如车里的物品、人的搭配、有没有系安全带等。
长期记忆,就像是一个档案库,存储着用户的基本信息、行为模式和偏好等,并且能自我迭代,能从用户长期使用中总结规律并不断优化。
场景记忆可以从临时记忆和长期记忆中提取重要信息,对这些信息实时处理和分析,作出决策或者解决问题。
最后是持续运行框架,它能够将多模态感知到的信息与各种记忆相结合,进行高效的处理和反馈,做到时刻感知需求,主动为用户服务。据介绍,「家庭新成员」的系统数据延迟控制在1毫秒以内,端侧也能快速响应,目前首包耗时最短仅需60毫秒,推理速度40 Tokens/秒。它的反应速度可能比人还要快。这次「家庭新成员」产品的发布,不仅是商汤绝影AI大模型算法的一次集中展示,也展现了它对AI产品化的深度思考。
端到端智驾量产大潮
继无图城市NOA之后,端到端智驾已经成为智驾领域确定性的技术趋势,也是当前车企在智驾传播上的热点。作为AI领域的龙头公司,商汤绝影也是当仁不让。绝影AI Day全面展示其多阶的量产方案,包括基于地平线J6E/J6M、英伟达Orin/Thor等不同算力平台打造的基础智驾方案、全场景高阶智驾、端到端智驾等绝影量产智驾产品体系,并正式发布基于UniAD打造的绝影量产端到端智驾方案AD Ultra。
基于地平线J6E和J6M两个平台,商汤绝影已经打造了AD Pro和AD Max两个量产智驾方案,其中AD Max能够实现城区无图NOP。J6平台的智驾方案,预计明年2季度就会量产交付。王晓刚介绍,绝影的UniAD纯视觉端到端方案,无图、无激光雷达,仅需1个毫米波雷达和11个摄像头,跑在200T算力平台上,就能够实现一段式端到端智驾,实现「类人」驾驶体验。
早在2022年,商汤及联合实验室提出行业首个感知决策一体化的自动驾驶通用模型UniAD,并荣获CVPR 2023最佳论文。UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化的端到端智能驾驶。2024年北京车展,商汤绝影也展出了这一方案的阶段性成果。据HiEV了解,目前该方案已经在上海城区demo运行。
基于前述的高阶智驾方案,商汤绝影已经与大卓智能、东风汽车等达成战略合作,推进量产交付。凭借在大模型技术上的积累,商汤绝影正在向智驾第一梯队发起冲击。但如果只是拿出又一个端到端方案,可能无法满足市场的期待。所以,面对端到端智驾长期持续的技术提升,商汤绝影还祭出了另一项绝招——世界模型。
汽车大模型之战,决战在云端
本次发布会上,商汤绝影亮相的最为重磅的产品,是「开悟」世界模型。如果说,座舱和智驾因为用户感知最明显,很多车企希望将其掌握在自己手中,那世界模型,就是商汤绝影给车企发出的最无法拒绝的邀请。端到端大模型方案,能够直接从原始传感器数据中学习驾驶策略,减少了对传统模块化系统的依赖。但这种方案对高质量数据的需求极高,而且数据需要随着模型的更新,不断训练迭代,其中的技术和成本要求都非常高。受限于量产规模、算力资源,目前大多数车企和智驾公司都面临高质量驾驶数据的获取难度大、效率低、成本高的问题。
因此,王晓刚表示:「智驾高端局的竞争不止是车端模型的比拼,端到端的决战,战场在云端。」
商汤绝影的答案,是给行业提供「开悟」世界模型。「开悟」可以在云端生成高质量、真实的视频数据,通过车企实车采集的数据,和仿真生成的数据,形成双轮驱动的数据闭环,从而让智驾产品不断迭代。在其中,商汤绝影承担了大部分的算力设施和数据成本,车企也能在不需要大量新建算力基础设施,掌握自己车辆数据的基础上,更新智驾产品。
「开悟」世界模型能够理解真实世界的物理规则、交通规则,生成的视频数据也更加逼真。现场展示的「开悟」生成视频案例中,晴朗天气下,汽车、路灯都是有影子的,右转车辆会主动让行优先级更高的直行车辆。
在图像真实的基础上,「开悟」生成的场景视频,时间最长为150秒、分辨率1080P、生成视角最多可以做到11V,是行业首个同时完成上述指标的智驾世界模型。目前,「开悟」世界模型可以支持多样化的自动驾驶场景及Corner case的可控生成,可生成1024类场景,打造了千万级的生成场景库。
「开悟」预计将在2025年对行业开放。目前商汤绝影智驾系统20%的数据由「开悟」生成,未来会达到80%。「开悟」世界模型既符合商汤绝影一贯高举高打的风格,也能最大化利用商汤智算中心的算力设施。商汤大装置作为大模型基础设施,为「开悟」提供了坚实的算力基础。目前商汤总算力规模高达20000petaFLOPS,拥有超5.4万块GPU。
算法、算力、数据,是过去十多年人工智能浪潮的基石,现在在AGI与智能驾驶的新浪潮中,商汤绝影再次以这三者为基础,构建了完整的产品体系。王晓刚在发布会上对车企喊话:商汤绝影是迈向AGI之路的最佳同行者,「在智能汽车与云端平台之间流动的数据,将成为加速大模型上车的高效燃料」。大模型上车的号角已经吹响,商汤绝影的邀请函已经发出,车企们收到了吗?