作为AI的前沿研究领域,具身智能已经成为今年一级市场最炙手可热的投资标的,在第六届北京智源大会期间,北京智源人工智能研究院院长王仲远接受《中国电子报》记者采访时表示, 对于当前具身智能/人形机器人领域空前高涨的投资热情,大家要客观理性地看待,一方面要能接受人形机器人发展可能在未来几年进入低谷期;另一方面,科研机构要有信心和耐心去持续推进相关研究,直到它跨越真正的技术周期,迎来真正的产业爆发。
否则当人形机器人迎来“ChatGPT时刻”时,人们又会重复那个问题“为什么中国没有孕育出OpenAI”。
具身智能仍处于早期发展阶段
“具身智能是未来AI发展一个非常重要的方向,也是我们集中资源投入的方向。”王仲远对《中国电子报》记者说。2018年底成立的北京智源人工智能研究院(下文简称“智源研究院”)是国内率先开展AI大模型的非营利性新型研究机构,其主办的北京智源大会已经成为AI领域的行业盛会。
本届北京智源大会期间,智源研究院发布了一系列“具身智能”研究成果——能够从失败中重思考、再尝试的铰接物体操作大模型系统SAGE,全球首个能做到开放指令控制六自由度物体拿取放置的大模型系统Open6DOR,全球首个端到端基于视频的多模态具身导航大模型NaVid,以及通用计算机控制框架Cradle。王仲远判断,智能体(Agent)或将成为AI大模型的爆款应用,成为人们真正意义上的智能助理。他表示:“如果智能体已经到达足够智能和好用的阶段,那么相当于每个人都拥有了一个私人助理,这种科技会推动社会进步和产业变革。我们认为,智能体可以存在于手机或PC之中,也可以‘进入’机器人——具身智能应运而生。”王仲远认为,具身智能技术尚处于发展初期。“其中一个重要原因是硬件的发展速度远不如AI大模型的迭代速度快。
当前AI大模型的迭代速度很快——每个月都会看到5-10个具有全球影响力的大模型发布,但是硬件的迭代周期和速度仍然以年为单位来计算。”王仲远说道。王仲远指出,当前具身智能发展有非常多亟待突破的问题,具身智能的大脑模型、小脑模型、场景应用都处于非常零散的发展阶段。对于大脑(AI大模型)来说,数据的缺失问题首当其冲。“大家都知道人工智能技术的突破是依靠ImageNet(用于视觉对象识别软件研究的大型可视化数据库)的支撑,但是当前具身智能还缺乏一个ImageNet这样可以用来训练的数据集。”王仲远说道。谈到智源研究院对具身智能的未来规划和布局,王仲远表示:“我们将发挥智源在大模型,尤其是多模态大模型这方面的技术优势,去持续探索和演进具身智能大模型的能力。”
人形机器人产业是个生态工程
对于人形机器人与具身智能的关系,王仲远给出了一个明确的解释:“具身智能本身代表是人工智能的技术(尤其大模型的技术)能够走进物理世界,与不同的硬件体结合,这个硬件可以是一个机器手臂、四足机器人、六足机器人、轮式机器人,也可以是人形机器人。”
去年以来,联合创新成为国内人形机器人发展的普遍共识,北京、上海、浙江、广东、成都等地相继建立了人形机器人创新中心。谈到各省市采用联合体去推动人形机器人发展,王仲远表示非常赞同:“人形机器人是一个需要跨学科、跨科研机构和企业去推动的产业,因此(类似创新中心)这样的联合体或者说创新平台的存在是非常重要的。”他进一步解释说,人形机器人攻关不是一个纯学术研究问题,而是需要和硬件厂商、上下游供应商、科研机构、场景应用联合推进。收集数据、训练模型、深耕场景应用、降低硬件成本……这些事情注定人形机器人攻关是一个生态工程。
王仲远对《中国电子报》记者表示,智源非常愿意打造具身智能的联合创新平台。“下半年以及明年,智源研究院在具身智能的重点工作就是联合清华大学、北京大学、中国科学院大学等相关高校,银河通用机器人、领视智远这样的人形机器人企业,共同去搭建一个具身智能的创新平台,联合上下游供应链的相关企业解决数据模型、场景应用等问题。”王仲远判断,人形机器人发展还处于非常早期,无论是进入工业化场景还是家庭生活还要很长一段时间,这个周期至少是3—5年起步。“智源研究院有信心和耐心去持续推进相关研究,直到它跨越真正的技术周期,迎来真正的产业爆发。否则,当人形机器人迎来‘ChatGPT时刻’时,人们又会重复那个问题‘为什么中国没有孕育出OpenAI?’。”
作者丨王伟编辑丨邱江勇美编丨马利亚监制丨连晓东