加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

车载AI Agent产品开发:如何通过大模型实现“座舱代言人”?

08/29 12:25
2897
阅读需 11 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

佐思汽研发布《2024年车载AI Agent产品开发与商业化研究报告》。

根据OPEN AI对AI的分类方式(共5个级别),AI Agent位于AI发展路径的第3个级别:

OPEN AI对AI的分类方式

来源:OPEN AI

而2023年大热的大模型受限于交互方式与工具使用能力等,最多也只能达到L2推理者的级别。对比下来,通过构建车载Agent来发展汽车AI体系是一个较为合适的目标:Agent通过主动智能特性与多类工具/大模型调用,补全大模型在场景应用中的痛点,进一步提升座舱智能化水平。

Agent是情感座舱代言人

“情感座舱”的口号已经喊了很多年,但是真正实现还是从大模型上车开始,在触发特定条件下,语音助手通过预置的情感语料库与用户聊天,但在真实聊天场景下无法适应人类的对话逻辑;而车载Agent上车后,通过集成多个大模型底座,对环境的识别更为准确,更多数量的工具库接口则进一步加强了其泛化能力,能够应付多元化场景下的聊天问答,真正实现“座舱代言人”的温暖陪伴。

部分Agent在不同场景下的情感关怀示例

整理:佐思汽研

主流的情感交互场景的设计重点在情绪识别、用户记忆、行为编排等领域,部分主机厂、Tier1也推出了提升Agent情感价值的技术或产品:

部分主机厂、Tier1的Agent情感技术/产品

整理:佐思汽研

以小爱同学为例,其“情感对话系统”的构建包含三个步骤:

小爱同学“情感对话系统”构建步骤

整理:佐思汽研

混合策略疏导模型包含情感状态增强编码器、混合策略学习模块、多因素感知解码器三个重要组件

马耳他大学数字游戏研究所提出了情感框架(Affectively Framework),设立情感模型,在训练过程中采用行为奖励和情感奖励机制,帮助 Agent 更好地理解人类的情感,并能够与人类进行更自然的交互。

升用户体验需要解决的痛点

想象一下,智能座舱不仅能够听懂并执行车主下达的指令,还能预测车主的需求,就像一个贴心的私人助理,这是不是会让车主更加期待?相比于买了传统汽车后每个功能还要自己摸索一遍,谁不想要一个“动动嘴”就能帮你打理所有座舱功能的座舱“代言人”呢?Agent主打一个省时省事。

虽然现阶段已上车的Agent大部分还停留在助手、陪伴以及具体场景功能列举层面,但相比于大模型,Agent拥有更大潜力,具备可激发的自主性和突出的工具使用能力,更加贴合“主动智能”标签,甚至能够弥补大模型在实际应用中的限制。

大模型与Agent的部分区别

整理:佐思汽研

然而,要让车载Agent真正做到“主动智能”,满足用户的体验价值,在技术开发上还有很长的路要走。Agent需要在主动感知、数据处理、状态识别等环节做得更加精确,通过准确理解环境,判断车内人员的真实需求,再根据不同环境采取不同的策略。其中,难点之一在于Agent对用户需求的准确判断,相比正常情况下的被动交互,主动意图识别缺少语音指令,而在环境/人员/车辆状态识别的过程中,未必能够通过向量特征匹配得到与当前场景极为相近的描述,预置方案也未必符合车内人员真正的意图。

主动推荐动作的生成示意图

来源:佐思汽研

目前,多数推荐功能仅仅是执行预设的指令,反而限制了Agent的“主动智能”能力,导致在推理环节频繁出现痛点。例如,如果Agent不能准确理解当前的场景,它就可能做出不符合用户预期的推荐,比如在错误的时间推荐音乐或导航等。最终结果就是影响用户体验,导致Agent成为用户眼中的“猜测机器”。

此外,Agent在接受语音指令的感知环节同样也有痛点,如佐思汽研非完全统计了部分车主对于使用车载Agent的使用痛点案例,频率较高的痛点主要为唤醒失败、识别错误、误唤醒。

不完全统计下的车载Agent使用痛点分析

整理:佐思汽研

在120个痛点案例中,唤醒失败、识别错误、误唤醒的提及频率分别达到19、18、17个,占比分别为16%、15%、14%,其他痛点还包括不支持可见可说、不识别方言、延迟响应、不支持语义澄清、不支持连续指令等,共计89个语音环节的痛点,占本次统计调研的74.2%。

此外,Agent架构/场景设计不合理导致的一系列问题还包括场景触发条件不合理、大模型需要二次唤醒、长/短期记忆失效、根据车主习惯自主做出的推荐动作不符合预期等,分别体现了Agent在场景设置、架构部署、记忆模块、反思模块上的限制。

总结说来,用户痛点较多地集中在感知与推理环节:

    • 感知:“叫不醒”(唤醒失败)、“瞎回答”(误唤醒)、“听不懂”(识别错误)、“啥也不会”(不支持可见可说)、“耳背”(延迟响应)等;

推理:“睁眼瞎”(物体识别错误)、“乱推荐”(自主推荐不符合用户预期)等。

快速响应的多Agent框架

为实现“代言人”在座舱的全面功能,Agent在多元化场景下的服务框架设计极为重要。Agent框架构建方式较为灵活,可以采用最简单的“接收器+执行器”架构,也可以构建更加复杂的多智能体架构,其设计原则很简单:只要在特定场景下能解决用户问题,那就是好的框架设计。作为一个合格的“座舱代言人”,车载Agent除了需要像一个独立思考的个体,自己做决定、解决问题外,还要像人一样,快速、自如地采取人类的行为模式。

蔚来汽车的Nomi就是一个典型的例子。它采用了多智能体架构,在不同的场景下,调用不同的工具,通过多个分工不同的Agent履行特定职责,共同完成理解需求、决策裁决、执行任务、反思迭代的流程。多智能体架构让Nomi不仅能够快速响应,还能像人一样做出更自然的反应,与汽车的其他功能无缝融合,让体验更加流畅。

相比单Agent系统,多Agent系统更适合执行复杂的指令,就像一个小型社区,每个“Agent”都有自己的任务,但它们又能协作完成更复杂的工作。比如,一个Agent负责理解你的指令,另一个负责决策,还有专门的Agent来执行任务。这种设计让车载AI Agent系统更加灵活,能够处理更多样化的任务。如澳大利亚联邦科学与工业研究组织(CSIRO)提出一种同时采用协调Agent和执行Agent的多Agent系统:

整个Agent框架分为6个模块,分别为感知交互(Understanding&Interaction)、推理(Reasoning)、工具使用(Tool Use)、多Agent协作(Multi-Agent Collaboration)、反思(Reflection)以及价值对齐(Alignment),囊括了主流的Agent设计模式,包含从主动感知、推理决策、工具调用到生成执行、反思迭代并与人类价值对齐的整个流程。该框架的特点是引入多Agent系统,可由不同的Agent分别担当整个流程中分发/决策/执行的不同角色,充分发挥各个Agent优势,提升任务执行的效率。

此外,在多元化场景下,Agent部署方式和工具调用能力也影响着用户需求是否能被快速、准确的执行。以蔚来Nomi为例:

Nomi Agents分别在端侧、云端两个部分进行部署,端侧与云端分别搭载端侧模型与NomiGPT,端侧模型与SkyOS深度融合,能够及时调用原子能力,进行跨域资源的调度(如数据、车控硬件/软件等),加快响应速度;云端Nomi GPT连接更多云端工具资源接口,进一步加强Nomi Agents工具调用能力。Nomi Agents架构布置在SkyOS中间件层,通过与SkyOS结合,调用原子API、硬件/软件、数据的过程更加自然协调、也更加迅速。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
ACS758LCB-100U-PFF-T 1 Allegro MicroSystems LLC Analog Circuit, 1 Func, BICMOS, PACKAGE-5

ECAD模型

下载ECAD模型
$7.18 查看
INA132UA/2K5 1 Burr-Brown Corp Analog Circuit, 1 Func, PDSO8, SO-8
$3.26 查看
MP6517GJS-XXXX-Z 1 Monolithic Power Systems Motion Control Electronic,
暂无数据 查看

相关推荐

电子产业图谱