2024年刚开春,人形机器人明星款接踵而至。
不到一个月时间,特斯拉三次发布人形机器人擎天柱(Optimus)性能更新迭代视频;谷歌DeepMind与斯坦福大学联合推出的阿罗哈(Mobile Aloha)也两次迭代更新;沉寂许久的波斯顿动力放出一段人形机器人Atlas拾起并搬运汽车零部件的视频;Figure将其人形机器人送进了宝马工厂。
随后,英伟达、OpenAI相继宣布开发机器人基础大模型。2月23日,Figure宣布完成6.75亿美元融资,同时达成与OpenAI共同开发下一代人形机器人模型的合作。一天后,英伟达宣布成立通用具身智能研究实验室GEAR,GEAR负责人范麟熙表示,未来每一台移动的机器人都将是自主的机器人与模拟智能体,将像手机一样无处不在。3月13日,Figure发布OpenAI大模型加持的机器人Figure 01演示视频,能听人话且可同时执行两种任务。
然而,一切并不是看上去那样一帆风顺。与此同时,上述特斯拉与斯坦福大学的机器人视频被质疑造假:并非完全是机器人的自主行动而是有人遥控操作;而被ChatGPT加持的Figure 01也被要求再进行一些“整形手术”。为何“领头羊”机器人公司要在视频上“动手脚”?人形机器人是虚假繁荣还是“真元年”已至?究竟什么在困扰人形机器人产业?
“形”之惑:要不要人形?
在被网友质疑特斯拉擎天柱叠衣服视频造假之后,特斯拉首席执行官埃隆马斯克在X上坦承了擎天柱的“不完美”:动作并非完全自主操作。斯坦福阿罗哈研究团队成员赵子豪也在社交媒体平台展示了阿罗哈“笨手笨脚”的另一面:锅放不进橱柜里,炒完虾的碗没放对位置。南京邮电大学管理学院讲师刘德文认为,阿罗哈的很多高级技能属于遥操作(Teleoperation)而非自主技能。而且,就算基于自主技能执行的任务,阿罗哈现有的平均成功执行率也不到90%,距离大规模商用还有很长一段路。
海银资本创始合伙人王熠全表示,擎天柱和阿罗哈都是有人遥控的,演示视频只是吸引了一波流量,人形机器人的这波热潮主要体现在“演示和造势”上。拥有明星机器人Digit 的美国敏捷机器人公司(Agility Robotics)总裁Shelton表示, 他们的解决方案中,没有一种会采纳五根手指、27个自由度(人的肩部到手,大概有27个自由度)。“我们的一些竞争对手曾公开声明,他们使用五根手指基本上是为了品牌推广。”Shelton说道。
阿罗哈研究团队成员符梓鹏在接受媒体采访时坦言:“我们公开视频和研究资料是希望能够推动机器人领域的发展,吸引更多人才进入这个行业,解决很多科学和工程难题。”
“目前,所有的人形机器人都面临一个悖论:越是非人形机器人不可的工作,使用范围越窄;越是常见的应用场景,越不需要人形机器人。所以打开机器人市场的关键因素不是长得像人,而是找到常见场景里的高频需求。” 王熠全认为,“擎天柱叠衣服,只需要机械臂就可以做到,很少有人需要一边走动一边叠衣服。同样是做家务,斯坦福的阿罗哈就不是人形的,只是轮式底盘加上机械臂,一样可以干各种各样的家务活。”
“人形”是否是机器人走向“通用”的必要选择?王熠全的想法代表业界一部分观点。特斯拉机器人团队的工程师杨硕也认为,通用人形机器人其实是一个伪命题。“以人类生活中最普遍、研究最深入的机电系统——汽车为例,并没有一款汽车能够完全代替其他的汽车。跑车、轿车、卡车等车型适用于不同的应用场景,不同的使用场景。未来,我们也需要应用于各种场景的各种专用人形机器人。”
通用机器人:人形是最佳形态?
与此同时,业界专家与企业代表都更倾向于将更通用、更高阶的机器人造得“像人”。图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长姚期智认为,具身智能体应该具备三个方面:身体、小脑和大脑。身体的具身必须要有足够的硬件,具有传感器和执行器,小脑主导视觉、触觉各种感知来控制身体,完成复杂的任务,最后大脑部分主导上层的逻辑推理、决策、长时间的规划,以实现用自然语言和其他的智能体、环境交流。
“关于身体部分,具身AGI(通用人工智能)最理想身体的形式,我们认为应该就是人形机器人。因为人类的社会环境主要是为人类而定制的,比如楼梯的结构、门把手的高度、被子的形状等,都是为了人类的形状而定制。所以如果我们能够打造一个泛应用的通用机器人,人形是最好最适合的形态,人形机器人能够适应人类的各种环境。” 姚期智说道。
除了无需为人形机器人设定特别的环境外,刘德文认为,人形机器人拥有和人类相似的外表和行为,更有利于被人类接受;且人形机器人可以使用人类的工具,使得人类不用专门为机器人配备工具,这也方便机器人根据人类的演示进行模仿学习,进而扩展到多任务中。业内人士普遍认为,人形机器人是通用具身智能的最佳载体。
基于这些判断,不难理解,为何特斯拉执着于让机器人更加贴近人形。马斯克传记作者沃尔特·艾萨克森透露,特斯拉正在探索将人形机器人擎天柱与超级计算机Dojo整合在一起,以创造“通用人工智能”。擎天柱最早在特斯拉工厂完成零部件搬运等枯燥、危险系数高的工作。按照王熠全的说法,这样的能力只需机械臂加移动轮盘就能实现,但要让机器人像人一样自主干活,仍有很多挑战。仅以行走为例,擎天柱三次更新的核心是行走,目前步速为每秒0.6米,与去年12月相比提升了30%,但也只是健康成年人步速的一半。
另外一个执着于将机器造得贴近人形的是机器人创业公司Figure,其创始人Brett Adcock认为:“Figure的人形机器人是AGI的最终部署载体。” 在宣布与OpenAI达成合作三周后,Figure公司放出了大模型加持下其最新更新的机器人Figure01演示视频,已经可以听从人类的命令,递给人类苹果,将黑色塑料袋收拾进框子里,将杯子和盘子归置放在沥水架上。能够听懂人的命令,自动将复杂任务进行分解,然后实施行动,而且行动速度接近于人类,该公司称其行为为自主操作。因机器人能力的突飞猛进,Figure被科技巨头们竞相投资,这家2022年成立的公司,现在估值已破26亿美元。
“脑肌”结合:从形似到神似?
不仅仅是“形”似,更需要类脑智能的“神”似。中国科学院院士、中国科学院自动化所研究员乔红几年前就曾表示,现有机器人系统的性能仍然受到传感器精度、系统重复精度和辅助机械性能的限制。相比之下,人类在感官反馈绝对精度低、行为控制和分散计算能力有限的情况下,可以实现比每个身体单元独立完成能力更加出色的整体性能。这主要得益于人类能够整合多个脑区的信息,并且能充分利用身体结构的优势。所以应该通过模仿人类的生理结构、行为特征、智能原理和控制机制,开展类脑智能机器人研究,通过整合脑科学、人工智能和机器人学等多个学科,建立具有高计算效率和通用智能的类脑信息处理算法,研发具有高度灵活性和鲁棒性的肌肉骨骼系统,为下一代机器人的发展奠定基础。
乔红提出从内部神经机制到外部躯体结构的研究思路,构建一个包含视角认知、决策、运动控制和肌肉骨骼结构的类脑智能机器人系统。基于这样的思路,乔红团队最近设计出多台“Q系列”人形机器人样机,更为重要的是,他们创造了人形机器人设计、组装的“大工厂”的模式 ,可以快速生成各类人形机器人系统,包括仿生高动态机器人Q1,多地形适应机器人Q2,高爆发运动机器人Q3,高柔顺、高精度运动的类人形机器人Q4,高并发推理人形机器人Q5等,也为未来在人类难以到达的环境中进行人形机器人自生产、自构建、自进化打下基础,人形机器人新想象空间正在打开。
人形机器人技术的突破需要包括神经科学、信息科学、材料科学、机械学等多学科协同,而材料科学的进步也是其中的关键支撑。最近,瑞士苏黎世联邦理工学院Robert Katzschmann教授团队开发了一种名为HALVE的新型人造肌肉,为机器人运动带来了创新性突破,让机器人向柔软、适应性强的方向发展有了可能。
软体机器人与环境的互动方式与刚性机器人有很大不同,软体机器人普遍采用更柔顺、更安全、更低能耗的运动模式。事实上,今天的人形机器人,功耗与电池也是一大挑战。“人类大脑的功耗仅为20瓦左右,而与今天的人工智能算法的训练能耗相比几乎可以忽略不计。” 乔红说道。
HALVE的柔软性和可伸缩性使得软体机器人能够执行类似于生物肌肉的复杂运动。其人工肌肉技术的核心概念是模拟生物肌肉的结构和功能,运行机制模仿了真实肌肉,可对电脉冲作出反应,发生迅速的收缩或膨胀。它由充满液体(通常是油)的囊袋和覆盖电极的外壳组成,通过对电脉冲的响应实现收缩。单个囊袋可看做一束肌肉纤维,几个囊袋可以连接起来形成一个完整的推进器。
据了解,HALVE有多层外壳,采用高介电常数电铁材料(high-permittivity ferroelectric material),可以存储大量电能,能够在较低电压下产生较大的力,并具有优异的机械性能,使整个囊袋更稳定坚固。相较于以往技术,HALVE不需要工作在过高电压范围内,无须连接大型、重型的电压放大器,能够在水中工作,显著提高了安全性。
人形机器人产业正在以前所未有的速度加速进化。如果将1972年早稻田大学推出的全尺寸人形机器人WABOT-1 视为全球首个人形机器人,那么历经了漫长的50年后,今天人形机器人的发展终于进入加速突破期,真正迎来商业化的元年。
Figure机器人操作高级AI工程师Corey Lynch说:“你看到的Figure01的一切,只用到了一个神经网络。”未来,人形机器人还将带来更多的可能。
作者丨特约撰稿 李佳师
编辑丨邱江勇
美编丨马利亚
监制丨连晓东