大模型赋能智能座舱，中国军团迎接新挑战

多模态是一个切入点，可以最大程度发挥智能座舱的自有优势。

“AI座舱，过去五年爆发式增长，现在问题很快出现了。这个领域产品系列发展的这么快，其它体系跟不上，智能座舱进入了’无人区’，国外没有国内发展快。”

清华大学智能绿色车辆与交通全国重点实验室教授曹东璞，在刚举办的全球智能汽车产业大会（GIV 2024）表示，疫情前，国内座舱产品基本落后国外一到两代，从去年开始，已经基本领先国外一到两代。

国内座舱的爆发式发展，AI大模型是主要推动力之一。“头部座舱企业已经遇到瓶颈了，如果没有大模型，座舱业务估计要一步步萎缩，很难有质的飞跃。”

今年开始，大模型加持的智能座舱，“多模态”成了一个热话题。随着技术的持续迭代和发展，大模型正在从单一模态向多模态演进，多模态大模型，有希望成为未来人机交互的超级入口。

咨询公司Gartner 预测，建立在多模态大模型上的生成式AI应用，将从2023年的1%，激增至2027年的40%，充满了想象空间。

目前，智能汽车是原生多模态大模型的绝佳落地场景，GPT-4o和商汤绝影的日日新最新版本，已经能感知外部环境、人的情绪以及其他非语音信号，多模态实时交互的方式，也释放了车企商业落地的更多想象空间。

在商汤看来，多模态大模型的座舱落地，突破了空间的限制，实现舱内用户与更广阔的物理和数字世界的联接，助推智能汽车向超级智能体进化，本质上，是一个生态的集成。

火山引擎汽车行业总经理杨立伟也表达了类似观点，大模型天生就跨终端，能够生态打通，将来大模型在座舱最大的价值，就是帮助座舱集成好生态，再打通各个终端，有足够的想象空间。

01、中国军团，硬刚GPT-4o

何为“多模态”？

无论是文本、语音、图像还是视频，都是我们表达和传递信息、同时也是感知信息的方式。而每一种信息的来源或者形式，都可以称之为“模态”（Modality）。

人类通过视觉、听觉、触觉等感官来接收和理解外部信息，也可以通过文字、语音、图像、视频等模态来表达、传递和交流信息。更广义来说，两种不同的语言，比如中文和英文，也是两种不同的模态。

图像、语音、视频等单一模态训练，能在特定的专业领域表现亮眼、取得很多成就，包括围棋领域的AlphaGo、蛋白质结构预测的AlphaFold，但这些单一模态模型仍旧存在一些局限性。

首先，单一模态的数据所传递的信息往往不够全面、完整，难以充分反映真实世界的复杂性和多样性。例如，一段文本可能没有描述清楚一个场景的所有细节，而仅仅依靠一张图像也无法展现出一个物体的功能和作用。

其次，单一模态的模型往往是孤立和封闭的，不能有效与其他模态的数据和模型进行交互和融合。例如，一个只依靠文本生成的模型可能无法根据图像的内容来生成合适的描述。

随着OpenAI的GPT-4V和商汤“日日新5.5”的多模态大模型发布，AI公司开始在技术框架层将语言模型、视觉模型、声音模型等进行融合。这些模型首先独立训练，然后将各模型在跨模态数据上继续训练，最终实现多模态的对齐，通过显式或隐式的管道模式进行连接实现场景。

那么，何为原生多模态？

具体来看，原生多模态就是指从训练阶段开始，模型就利用大量不同模态的数据进行预训练，技术上实现紧密的耦合，不仅可以在输入和输出端实现多模态，而且还具备强大的多模态推理能力以及跨模态迁移能力。

它和之前的多模态模型最核心的区别，在于模型训练过程中，是否同时处理所有模态的数据，还是分别针对不同目标进行优化，是不同模态之间的相互串联、桥接与转化。

前两月，商汤绝影率先实现原生多模态大模型的车端部署，官宣了搭载在200 TOPS+平台上的8B模型(即80亿参数)车端部署方案。相较于有几秒钟延迟的云上部署方案，商汤绝影车载端侧8B多模态模型可实现首包延迟可低至300毫秒以内，推理速度40Tokens/秒。

商汤将多模态大模型业务分为三层——

最下面是模型层，包括车端侧和云端的模型。车端侧的模型可根据需求部署2.1B、8B等规模的模型，用于进行端侧的多模态大模型推理。在云端，则可以部署更大规模的模型，如20B甚至100B以上的模型。

中间是引擎层，主要有两个产品。

第一个是座舱大脑，感知座舱内的情况，如识别人类的穿着、性别、行为以及观察座舱内的其它细节特征，对车内环境进行意图推理；第二个是全时驾驶辅助，它利用多模态大模型的能力感知车外场景，作为行驶策略的辅助。

最上面是业务层，包括语音助手、ADAS系统、手机运用以及娱乐功能等，和下面的模型层、产品引擎层进行融合。

02、大模型“上车”的新功课

神州数码汽车业务集团CTO刘黎告诉《汽车公社/C次元》，人类数字化历史上出现过两个超级生态，第一个是微软和英特尔的PC生态，第二个是苹果和安卓的手机生态，目前业界正期待第三个超级生态的到来——

英伟达主导的CUDA有其影响力，但还没有像前两个超级生态那样，出现杀手级的应用。智能车具有大量的传感器，远多于手机，还是移动的隐私空间，极有可能成为下一个超级生态的突破口。

不过，很多车企的座舱设计，只是把手机的卡片式交互移植到了车上，屏幕比较大，堆积了音乐、导航等，本质上还是卡片式交互。想要从根本上解决交互属性，多模态是一个切入点，可以最大程度发挥智能座舱的自有优势。

科大讯飞智能汽车事业部智能座舱业务总经理吕思南看来，多模态大模型加速“上车”，座舱深入融合越来越多，算法的需求也越来越强，对于算力也有极大的压力。

在芯片选择方面，顶端的是高通、联发科以及英特尔等厂商，但随着国产替代日渐强势，芯片选型越来越多样化，怎么才能更优、更好地使用算力，是一个挑战。

吕思南分析说，集中化跨模态的全链路数据打通，包括服务接口的标准化等方面，是需要座舱域进一步努力的，包括芯算融合，硬件的抽象化和标准化。

挑战主要有两方面。

一是，车端应用大模型，目前常见的承载算力的单元是SOC，SOC供应商提供不同的算力单元，非常考验AI能力和汽车融合的深度。如果融合不好，则需要更强的算力，成本会更高。

二是，现有的算力会导致整个系统更卡顿，以及多域融合时，互相的打通、分配产生很多困难。此外，OTA迭代、更新也会面临很大的问题，这些都是当前亟需解决的。

另一方面，是实际需求的取舍。

最近一两年，座舱大模型如火如荼，但从最终呈现的产品体验来看，很多座舱应用成了消费者眼中的“鸡肋”。在智驾领域，端到端等新趋势可以提高性能和技术的天花板，但座舱大模型孵化的诸多新应用，却遭遇了“食之无肉、弃之有味”的尴尬。

火山引擎座舱大模型负责人张航强调，最近几年，座舱内的用户需求没有太大变化，它的本质是跟车的交互。所以，智能座舱当前的重心，不该急于产品创新，而是回归原点，改变车内场景的交互效率。

百度智舱业务部总经理李涛也表达了类似的观点，如果一个功能频繁被用户使用，一方面说明该功能非常实用，用户对它产生了依赖；但另一方面，也体现了整体车辆设计的智能化程度比较低，无法理解用户当前所需。

“根据帕累托定律，整体软件应用也符合八二原则。这意味着，80%甚至更高比例的应用不会被使用，这样一来，不只应用端产生浪费，主机厂也需要大量投入，无形中造成了整个社会的浪费。”

作者丨菠萝蜜

责编丨查攸吟

编辑丨王越

大模型赋能智能座舱，中国军团迎接新挑战

01、中国军团，硬刚GPT-4o

02、大模型“上车”的新功课

相关推荐