加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 与机械臂、AGV相比,AI人形机器人应用场景更具通用性
    • AI人形机器人大模型从VLM向VLA进化
    • 与汽车行业联动,主机厂押注人形机器人赛道
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

AI人形机器人研究:与汽车行业联动,主机厂押注人形机器人赛道

2023/11/21
2754
阅读需 7 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

佐思汽研发布《2023年人形机器人产业研究报告》。主要从以下几方面进行研究:

AI人形机器人主要构成及应用场景;

AI大模型赋能人形机器人技术路径;

主机厂和其他厂商AI人形机器人产品布局对比;

产品硬件拆解软件分析;

AI人形机器人的发展趋势等。

与机械臂、AGV相比,AI人形机器人应用场景更具通用性

AI人形机器人是指由AI大模型赋能,具有与人类似外观和运动方式的机器人。AI大模型从语音、视觉、决策、控制等多方面与人形机器人结合,使机器人具备理解指令并执行指令的功能。

借助AI大模型赋能,AI人形机器人应用场景更具通用性。

例如,2023年8月,智元机器人推出的远征A1,由百亿级参数的WorkGPT大模型赋能,拥有理解指令,并对指令进行任务编排和执行闭环能力。预计2024年商用,并率先用于工业制造领域如3C 制造、 汽车制造,随后逐步走向to C应用如家庭场景。

2022年8月,小米推出的Cyberone。其搭载自研Mi-Sense 深度视觉模组+ AI 交互算法,拥有三维空间感知能力,实现身份、手势和表情识别。此外,在情绪感知上,其能识别85 种环境语义和 6 大类 45 种人类情绪。未来将率先用于小米智能制造工厂、同时还支持多种应用场景,如家庭助理、陪伴机器人、教育辅助等。

AI人形机器人大模型从VLM向VLA进化

2023年7月,谷歌DeepMind推出了机器人模型Robotics Transformer 2 (RT-2),这是一个视觉-语言-动作(VLA)模型,实现了视觉语言模型与机器人动作的结合。它能够指导机器人识别视觉和语言,让其理解指令并做出正确的操作。

与视觉语言模型(VLM)相比,VLA的主要进化之处在于将机器人动作直接作为模型token输出,省去了VLM模型将输出的指令翻译成动作控制信号的步骤。

RT-2的架构和训练

来源:DeepMind

RT-2一方面吸收了VLM语义推理、问题解决、视觉解释能力,另一方面能从真实的机器人动作中实现具身任务推理,且两方面能够相互促进。

训练方式上,RT-2通过将机器人动作拆解为文本token的形式,实现了直接与视觉语言数据混合后输入VLM进行联合微调。

RT-2不仅是对现有VLM模型的简单而有效的修改,还展示了构建通用物理机器人的前景,让机器人可以推理、解决问题和解释信息,以在现实中执行各种任务。

谷歌DeepMind RT-2大模型

来源:DeepMind

与汽车行业联动,主机厂押注人形机器人赛道

AI人形机器人可与汽车行业联动。如在汽车生产上,用于新能源汽车工厂装配底盘、打螺丝,提升工厂智能化水平,降低人力成本;在汽车销售环节上,用于门店为顾客介绍产品,提升品牌形象。

目前,已有包括特斯拉、小鹏和小米在内的厂商推出了AI人形机器人。此外,比亚迪也于2023年9月入股人形机器人公司上海智元新创技术有限公司,未来智元科技的机器人远征A1可在比亚迪工厂参与外观检测流程、进行装配底盘等汽车装配线上作业。

部分主机厂及其他厂商AI人形机器人产品布局

来源:佐思汽研《2023年人形机器人产业研究报告》

由于人形机器人与汽车之间存在技术同源,主机厂在汽车行业积累的技术经验可直接复用到这一赛道上。

首先在软件方面,主机厂可将车端算法复用至人形机器人上。

例如,特斯拉人形机器人Optimus采用与FSD同样的神经网络“占用网络”来对三维环境进行建模。FSD算法在处理传感器数据时,具备对道路、车辆和行人等物体进行识别的能力,可帮助机器人在执行任务时识别和定位物体。此外,Optimus的神经网络训练是完全端到端的,可直接从视频输入中获取信息,并输出控制指令。根据2023年9月特斯拉公布的视频,Optimus已可仅依赖视觉对物体进行分类,并完成简单的瑜伽动作。

小鹏汽车在车端感知上采用激光雷达毫米波雷达摄像头超声波等多种传感器,及自研的深度学习算法,实现对周围环境的高精度地图构建和实时动态追踪。该技术可使人形机器人具备在复杂道路稳定行走的能力,及对障碍物和危险物的规避和应对能力。

此外,小鹏采用多种模块,如规划、决策、控制、校准等,及自研的强化学习和多智能体协同算法,实现了对车辆运行的安全和保障。该技术可使人形机器人具备在不同场景下自主完成任务的能力,以及与其他机器人或设备协同工作的能力。

其次在硬件方面,主机厂可将电动汽车供应链复用到人形机器人上。如共用汽车芯片电池、摄像头等,并对汽车电机电器、热管理等做适应性更改,以降低机器人制造成本。

例如特斯拉人形机器人的“大脑”搭载D1芯片(同为特斯拉车机的芯片),单芯片算力可达362TFLOPs,为机器人提供算力保障;头部拥有3颗Autopilot摄像头(鱼眼摄像头+左右摄像头),分别控制左中右三个方向的画面;电池组借鉴了电子产品与汽车产品的设计,将所有电池的电子设备集中到电池组的单个PCB中,从传感、融合、充电管理汇集到一个系统中。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
ATSAM4S16BA-AU 1 Atmel Corporation RISC Microcontroller, 32-Bit, FLASH, CORTEX-M4 CPU, 120MHz, CMOS, PQFP64, LQFP-64

ECAD模型

下载ECAD模型
$7.22 查看
ATXMEGA128D4-CUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PBGA49, 5 X 5 MM, 1 MM HEIGHT, 0.65 MM PITCH, GREEN, VFBGA-49
暂无数据 查看
FT232RQ-TRAY 1 FTDI Chip USB Bus Controller, CMOS, 5 X 5 MM, GREEN, QFN-32

ECAD模型

下载ECAD模型
$4.5 查看

相关推荐

电子产业图谱

佐思汽车研究:致力于汽车、TMT、新能源(特别是新能源汽车、智能汽车、车联网)领域的产业研究、专项调研、战略规划和投资咨询服务。