佐思汽研发布《2023年人形机器人产业研究报告》。主要从以下几方面进行研究:
AI人形机器人主要构成及应用场景;
AI大模型赋能人形机器人技术路径;
主机厂和其他厂商AI人形机器人产品布局对比;
AI人形机器人的发展趋势等。
与机械臂、AGV相比,AI人形机器人应用场景更具通用性
AI人形机器人是指由AI大模型赋能,具有与人类似外观和运动方式的机器人。AI大模型从语音、视觉、决策、控制等多方面与人形机器人结合,使机器人具备理解指令并执行指令的功能。
借助AI大模型赋能,AI人形机器人应用场景更具通用性。
例如,2023年8月,智元机器人推出的远征A1,由百亿级参数的WorkGPT大模型赋能,拥有理解指令,并对指令进行任务编排和执行闭环能力。预计2024年商用,并率先用于工业制造领域如3C 制造、 汽车制造,随后逐步走向to C应用如家庭场景。
2022年8月,小米推出的Cyberone。其搭载自研Mi-Sense 深度视觉模组+ AI 交互算法,拥有三维空间感知能力,实现身份、手势和表情识别。此外,在情绪感知上,其能识别85 种环境语义和 6 大类 45 种人类情绪。未来将率先用于小米智能制造工厂、同时还支持多种应用场景,如家庭助理、陪伴机器人、教育辅助等。
AI人形机器人大模型从VLM向VLA进化
2023年7月,谷歌DeepMind推出了机器人模型Robotics Transformer 2 (RT-2),这是一个视觉-语言-动作(VLA)模型,实现了视觉语言模型与机器人动作的结合。它能够指导机器人识别视觉和语言,让其理解指令并做出正确的操作。
与视觉语言模型(VLM)相比,VLA的主要进化之处在于将机器人动作直接作为模型token输出,省去了VLM模型将输出的指令翻译成动作控制信号的步骤。
RT-2的架构和训练
来源:DeepMind
RT-2一方面吸收了VLM语义推理、问题解决、视觉解释能力,另一方面能从真实的机器人动作中实现具身任务推理,且两方面能够相互促进。
训练方式上,RT-2通过将机器人动作拆解为文本token的形式,实现了直接与视觉语言数据混合后输入VLM进行联合微调。
RT-2不仅是对现有VLM模型的简单而有效的修改,还展示了构建通用物理机器人的前景,让机器人可以推理、解决问题和解释信息,以在现实中执行各种任务。
谷歌DeepMind RT-2大模型
来源:DeepMind
与汽车行业联动,主机厂押注人形机器人赛道
AI人形机器人可与汽车行业联动。如在汽车生产上,用于新能源汽车工厂装配底盘、打螺丝,提升工厂智能化水平,降低人力成本;在汽车销售环节上,用于门店为顾客介绍产品,提升品牌形象。
目前,已有包括特斯拉、小鹏和小米在内的厂商推出了AI人形机器人。此外,比亚迪也于2023年9月入股人形机器人公司上海智元新创技术有限公司,未来智元科技的机器人远征A1可在比亚迪工厂参与外观检测流程、进行装配底盘等汽车装配线上作业。
部分主机厂及其他厂商AI人形机器人产品布局
来源:佐思汽研《2023年人形机器人产业研究报告》
由于人形机器人与汽车之间存在技术同源,主机厂在汽车行业积累的技术经验可直接复用到这一赛道上。
首先在软件方面,主机厂可将车端算法复用至人形机器人上。
例如,特斯拉人形机器人Optimus采用与FSD同样的神经网络“占用网络”来对三维环境进行建模。FSD算法在处理传感器数据时,具备对道路、车辆和行人等物体进行识别的能力,可帮助机器人在执行任务时识别和定位物体。此外,Optimus的神经网络训练是完全端到端的,可直接从视频输入中获取信息,并输出控制指令。根据2023年9月特斯拉公布的视频,Optimus已可仅依赖视觉对物体进行分类,并完成简单的瑜伽动作。
小鹏汽车在车端感知上采用激光雷达、毫米波雷达、摄像头、超声波等多种传感器,及自研的深度学习算法,实现对周围环境的高精度地图构建和实时动态追踪。该技术可使人形机器人具备在复杂道路稳定行走的能力,及对障碍物和危险物的规避和应对能力。
此外,小鹏采用多种模块,如规划、决策、控制、校准等,及自研的强化学习和多智能体协同算法,实现了对车辆运行的安全和保障。该技术可使人形机器人具备在不同场景下自主完成任务的能力,以及与其他机器人或设备协同工作的能力。
其次在硬件方面,主机厂可将电动汽车供应链复用到人形机器人上。如共用汽车芯片、电池、摄像头等,并对汽车电机电器、热管理等做适应性更改,以降低机器人制造成本。
例如特斯拉人形机器人的“大脑”搭载D1芯片(同为特斯拉车机的芯片),单芯片算力可达362TFLOPs,为机器人提供算力保障;头部拥有3颗Autopilot摄像头(鱼眼摄像头+左右摄像头),分别控制左中右三个方向的画面;电池组借鉴了电子产品与汽车产品的设计,将所有电池的电子设备集中到电池组的单个PCB中,从传感、融合、充电管理汇集到一个系统中。