Robot GPT终于来了！智能机器人迎来“奇点时刻”

| 科 | 技 | 杂 | 谈 |

中国通信行业第一自媒体

机器人进化的一个全新纪元，可能由此开启。

从上古神话里的偃师到好莱坞的终结者，从小说、电影到科学设计，几千年来，人类一直对机器人充满无尽遐想。

然而，现实中的机器人却依然与我们的想象天差地别。

不够强大，更不够智能。

现在，随着人工智能技术突破，智能机器的“奇点时刻”，终于走进现实。

7月7日，5G云端智能机器人运营商达闼机器人公司宣布，正式推出全球首个机器人制造领域的多模态认知大模型Robot GPT。

机器人进化的一个全新纪元，可能由此开启。

【1】

机器人要做成人的样子，这并不困难。但要实现智能，却是一个极其艰巨的任务。

以前，从我们下达指令，到机器人完成任务，必须经过以下几个流程：

1、任务的定义与描述。比如，我们命令机器人，去做一盘清炒白菜。

2、把任务分解为动作。从取菜，清洗、切割、烹饪到送餐，机器人的每个动作都要详细拆分。哪个部件，在什么时间，有什么条件，以什么功率，以什么方式，行进什么动作，任何一个细节，都必须全部分解到位。

3、编写程序。根据分解动作进行编程，为机器人编写代码。

4、执行任务，根据程序代码，机器人完成控制－执行－反馈。

这个过程中，除了最后一步是机器人完成，其他的几个环节，以前都要由工程师来实现。

普通人眼中再寻常的一个简单行动，对机器人来说，都是极其复杂的工作，只能靠工程师提前规划设计，再用代码一行行写出来。

而且，还必须考虑到现实环境中的各种可能：这棵白菜大，那棵小，今天的燃气足，昨天小区停水，前天的菜里有虫子，炒到一半的时候，哈士奇跑来撞到了机器人……

任务越多，环境越复杂，整个过程越耗时耗力，容错率也越低。

所以，直到现在，机器人都只能实现工程师预先定义的有限功能，且普遍是两种情况：

要么，是在简单环境中完成固定任务的专用机器工具。

要么，是展示性大于实用性的“人工智障”。

【2】

大模型人工智能的技术突破，让我们看到了新的可能。

比如，大语言模型LLM（Large Language Model）具备了充分的基础知识、良好的自然语言理解、基本可用的连续对话与持续交互、强大的零样本/小样本学习能力。

依托这些能力，以前属于程序员的绝大部分工作，都可以交给机器人：

我们只需要告诉机器人任务是什么，机器人就会自己拆分任务动作，生成控制指令，甚至根据实际环境变化，对行动细节进行实时修正。

除了前期的基础底层代码，和后期少量的修改、调优等工作，还需要具有专业能力的人类工程师介入，其他的过程都可以基本实现机器人的自主运行。

最终，伴随大模型人工智能的逐渐完善，即使是一个不懂任何技术的普通人，也能很好地管理和使用机器人。

达闼创始人兼CEO黄晓庆曾说，机器人会是人类在PC和手机之后的第三台计算机。

面向未来，机器人的本体将逐渐变成一个基础设备，它具备什么样的智力，能实现什么样的功能，都由云端大脑来进行赋能。

就像手机和电脑的应用商店一样，消费者可以根据自己的需求，自由选择定制，并且不断升级进化。

从这个意义上来说，大模型就是机器人从“功能机”走向“智能机”的拐点，奠定了机器人大规模走进千家万户的可能。

同时，它也将带来另一个关键质变。

1963年，麻省理工学院教授理查德·赫尔德做了一个实验。

他准备了两只猫，一只猫被绑上脚放进盒子里，只能观察环境，另一只可以自己行走。

结果，在完全相同的环境下，自己行走的猫发育出了正常的视觉能力，被绑着的猫却发育失败。

赫尔德将这种现象称为“具身”，即生物只有通过自身感知的训练，才能学习理解外部的环境与信息。

后来，麻省理工学院教授阿玛文·明斯基进一步提出，计算机无法理解人类语言，因为人类具有具身性，计算机却没有这种能力。

如今，在大模型人工智能的支持下，具有感知、思考、学习、决策等能力，能够与环境进行交互的“具身智能机器人”，已经成为可能。

事实上，这一趋势当下已经成为热潮。

不久前，英伟达创始人黄仁勋就曾在 ITF World 2023 半导体大会上表示，AI 下一个浪潮将是“具身智能”。

而上周召开的2023世界人工智能大会（WAIC 2023）上，具身智能也成为了最重要的主题之一。

【3】

但就当下而言，大模型人工智能在机器人领域的应用，还并不成熟。

从2017年，谷歌提出全新的Transformer学习框架，到近期OpenAi引发GPT热潮，大模型人工智能的发展，目前还只是一个方兴未艾的新兴趋势。

比如，语言大模型、图像大模型以及其他多模态大模型之间，知识如何映射，能力如何链接，应用如何协同，就仍然是一个未解之题。

更重要的是，机器人大模型的建立与完善，还将面临更大挑战。

其原因在于：

GPT等大模型主要进行虚拟信息交互，不会对现实世界产生物理的影响。

而机器人拥有物理实体，它的感知、行为和交互，都要在现实中完成。

所以，机器人既是人工智能落地物理世界的最佳载体，也是人工智能应用实现最难的领域。

在图像和自然语言处理等领域，我们可以从网络中获取大量训练数据，并通过人类的标注反馈，快速低成本地完成大模型迭代训练。

对机器人的训练，样本更少、成本更高、时间更长、难度更大。

在需求侧，它基于现实物理环境，实现机器人的感知、行为与反馈训练，需要语言、文字、视觉、运动等更多模态的更大规模数据集。

但在供给侧，当下却还问题重重：

可用于收集训练数据的机器人规模少；机器人的形态与结构不统一，且还在不断迭代；训练过程可能破坏环境、设施，甚至对人造成伤害；机器人训练流程用时更长……

所以，在欠缺优质数据的大背景下，包括GPT在内，当下的几乎所有人工智能大模型，都还无法实现对机器人大模型训练的充分支持。

“计算机控制机器人必须解决这三个问题：逻辑关系、特殊关系和时间关系。然而，现有的大型语言模型（LLM）等方法，只能回答其中一个维度的问题。”香港大学教授席宁说。

【4】

面向这一趋势，达闼的Robot GPT应运而生。

它是一个面向复杂场景和多模态行为，专为机器人提供的交互生成型 AI模型。

与其他GPT相比， Robot GPT的核心优势在于：

在此之前，作为智能机器人领域的头部企业，达闼已经从专利、标准、技术平台、操作系统、关键元器件、生态平台在内的整个产业链条，完成了全方位的技术和产业布局，构建出了一个完整的技术体系和运营平台。

并搭建了机器人的云端大脑操作系统“海睿”，以及机器人的数字孪生虚拟开发平台“海元世界”。

任何开发者都可以根据自己的需要，依托达闼的系统与平台，在虚拟世界中快速、高效、低成本地开发、训练和验证机器人。成熟后只需要将实体机器人接入云端大脑，就可以在现实场景中投入使用。

这个平台上，达闼和机器人开发者都可以开放自己的训练模型，其他开发者根据自己需求修改、调优，即可投入使用。

同时，达闼自主研发的集通信、计算、传感于一体的智能柔性关节（SCA），也突破了智能机器人硬件标准化与集成化的局限，为未来的消费级机器人商用铺平了道路。

截至 2022 年底，达闼已拥有超1600多项专利申请，在云端机器人领域专利数全球第一。

目前，已有超过300个应用合作伙伴，超过100家设备合作伙伴加入达闼产业生态，开放超过3000个机器人技能模型，创造超过3500个数字孪生地图。达闼及其生态链企业的机器人，也已经在商业、通信、教育、公共安全、能源、医疗、农业、政府、金融、环卫等大量行业广泛应用。

这意味着：

1、对于机器人大模型训练，达闼拥有充分的技术与理解。

2、达闼和生态企业拥有海量的优质机器人训练数据，并在孪生世界中实现更低成本、更快速度的高效训练。

3、达闼和生态企业能够将机器人大模型的训练成果，更快更便捷地进行商用转化，并形成相互促进的正向循环。

【5】

面向未来，机器人与大模型人工智能的融合发展，已经是大势所趋，所有机器人公司都已经向其发起冲刺。

为什么达闼能在行业内，率先成功搭建机器人大模型？

原因在于，很多厂商都是最近几年甚至是今年GPT成功后，才开始进行大模型的摸索。

而达闼早在很多年前，就已经朝着这个方向持续做好了准备。

过去60年来，从开发第一代机器人开始，人类一直在努力让机器人聪明起来，但由于智能化、网络化程度不高，机器人的能力始终未能走到质变的临界点。

21世纪之后，在算法、算力、数据“三驾马车”的同步带动下，人工智能技术有了突破性飞跃，但问题也随之而来。

高性能的人工智能，尤其是大模型人工智能，都对算力和数据量有严苛要求，比如谷歌2021年发布的超级语言模型Switch Transformer参数规模达到1.6万亿，阿里达摩院的多模态大模型M6参数更直接突破了10万亿。

所以，早在2016年成立之初，达闼就在全球率先提出了云端机器人概念：将机器人的“大脑”和“身体”分离，负责智能计算的“大脑”放在云端，负责感知、行动和反馈的本体放在本地，通过高速安全的5G网络连接，共同完成任务。

正是基于这样的一个“云-网-端”架构，机器人可以突破障碍，真正变成人类的“第三台计算机”，通过持续的训练和升级，实现智力和能力的无限扩展。

从云端大脑“海睿”，数字孪生开发平台“海元世界”，到如今的Robot GPT，达闼的每一步，都是在循序渐进，不断完善。

尤其是RobotGPT，将达闼多年的技术积累，与最新的人工智能大模型技术有机融合，从而为云端机器人在更广应用场景中，发挥更大作用奠定了优势。

“在RobotGPT的支持下，云端机器人将成为通用人工智能的最佳载体。通过数据训练可实现更接近拟人化的机器人产品，从而有望颠覆和促进行业发展。”黄晓庆说。

【6】

过去这些年，云端机器人的发展，大体经过了三个阶段：

一开始，是从达闼率先提出新的理念，并在技术、系统、元器件、运营模式等各个方面，搭建基础平台，最终建起一个完善的云端机器人产业闭环。

后来，越来越多生态企业加入，与达闼一起构成了一个繁荣的云端机器人行业生态。

而现在，伴随着大模型人工智能的出现，证明了机器人需要云端大脑，云端机器人已经成为整个行业的大势所趋。

2022世界机器人大会发布的《机器人十大前沿热点领域（2022-2023）》中，达闼海睿操作系统、达闼“云端大脑+本地机器人”核心技术，就已经入选“2022—2023年机器人十大前沿技术”。

2022年9月，国家科技部正式批复，支持达闼建设“云端机器人国家新一代人工智能开放创新平台”。

这标志着，达闼成为国内第一家围绕人工智能和云端机器人建设新一代人工智能开放创新平台的“国家队”企业，也是目前唯一获科技部批准的新一代云端机器人 AI 开放创新平台。

【7】

业界普遍认为，未来十年，必将成为智能机器人的“黄金十年”。

尤其是在人口加速老龄化，企业“降本增效”趋势下，智能机器人将有效地帮助我们完成大量劳动密集型的工作。

今年1月，工信部等十七部门印发《“机器人+”应用行动实施方案》，提出到2025年，制造业机器人密度要较2020年实现翻番，服务机器人、特种机器人行业应用深度和广度显著提升，机器人促进经济社会高质量发展的能力明显增强。

而面向国际，机器人这个现代人类技术“皇冠上的明珠”，也是大国博弈的又一战场。

尤其是双足人形机器人，更是被所有人寄予厚望。

作为最接近人类的终极形态，双足人形机器人可以深入到现实生活中的绝大多数场景，代替人类完成各种工作。

黄晓庆甚至认为，在未来几年，智能机器人就将在4个D和4个C领域，为我们的生活带来巨大改变：

Dull，重复性很高，无聊的工作。

Dangerous，巡夜、爬高等危险工作。

Dirty，让人感觉脏的工作，比如扫地、清洁等等。

Demeaning，比较没有尊严的工作。

Conversation，与人交流。

Clean，做清洁。

Care，照顾老人，照顾小孩。

Cooking，做饭。

得益于达闼的抢先布局，在云端机器人这一领域，中国已经成为行业标准的制定者与产业的先行者。

面向未来，达闼将有效整合关键企业资源、协同产业链上下游，构建政府、产业界、科技界协同合作的智能机器人创新体系，抢占中国在智能机器人产业的制高点，形成中国科技创新高质量发展生态，不断提升中国在人工智能和高端制造领域的国际话语权。

据透露，达闼已经布局“星链计划”，首选50个不同行业的行业领袖级上市公司展开全面战略合作；针对特定行业的 AI 及云端机器人的应用研究和开发，成立联合研究院或实验室；对研发成果进行联合投产、充分市场化等，让中国高端智造走向世界。

据悉，达闼由知识城集团和上海国资联合领投的C轮融资也已经在进展中，已完成交割的融资规模超过10亿元人民币。

据黄晓庆透露，新一轮资将主要用于新产品、技术研发以及产能扩充、升级，在持续扩大市场占有率的同时，为各种服务场景开发不同的云端机器人，持续投入新产品研发并保持在市场上技术领先地位。

“在Robot GPT的支持下，以云端机器人为代表的智能服务机器人将超越手机和汽车，成为数字时代的最大产业。”黄晓庆说。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
FT232RL-TUBE	1	FTDI Chip	USB Bus Controller, CMOS, PDSO28, 10.20 X 5.30 MM, GREEN, SSOP-28	ECAD模型下载ECAD模型	$4.7	查看
FT232RL-REEL	1	FTDI Chip	USB Bus Controller, CMOS, PDSO28, 10.20 X 5.30 MM, GREEN, SSOP-28	ECAD模型下载ECAD模型	$4.79	查看
ATMEGA64A-AU	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 16MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64	ECAD模型下载ECAD模型	$4.99	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

FT232RL-TUBE

FTDI Chip

USB Bus Controller, CMOS, PDSO28, 10.20 X 5.30 MM, GREEN, SSOP-28