1977年,电影《星球大战》横空出世,其塑造的宏大宇宙观及一系列前卫科技,在当时引起巨大轰动,也启蒙了无数人对科技未来的想象。40余年后的今天,影片中许多曾经遥不可及的设想,正逐步变为现实。例如,曾在《星球大战》系列电影中承担重要运输任务的机器人,已逐渐走出科幻世界,越来越多地应用于日常生活和工业生产中。
在刚刚结束的CES上,NVIDIA发布了一系列面向AI时代的新产品和技术,其中,在机器人领域的平台突破,无疑影响深远。值得一提的是,在NVIDIA CEO黄仁勋身后亮相的由14款人形机器人中,有6款来自中国企业,其中一家就是银河通用。
“中国的机器人技术是一个令人着迷且快速发展的领域。小时候,我深受《星球大战》和《星际迷航》的启发,机器人技术一直让我觉得是人工智能最大的应用方向之一”,NVIDIA机器人与边缘计算副总裁Deepu Talla表示。
日前,Deepu Talla在访问中国市场期间,与银河通用创始人、CTO王鹤,共同接受了<与非网>等媒体采访,就机器人的发展动力、最新突破等话题,进行了深入的分析和探讨。
突破1:仿真——重塑开发流程,机器人产业加速前进
多年来,三大核心因素始终在驱动着机器人技术的发展,包括:危险的工作、劳动力短缺以及养老需求。不过,在看似不变的驱动力下,机器人的发展正在产生新的变化。特别是从2024年到2025年,业界对机器人技术的兴趣显著增长,中美两国企业都在探索如何开发人形机器人。
为什么在这个时间节点,人形机器人开始加速前进?是什么发生了什么改变?
NVIDIA机器人与边缘计算副总裁 Deepu Talla
Deepu Talla指出,主要有两方面原因:首先是技术进步,特别是在生成式AI(GenAI)领域。大约两年前,大型语言模型(LLMs)颠覆了数字应用领域,这些技术应用于机器人技术,打破了数字应用与物理应用之间的界限。
其次是仿真环境的改进。以前,机器人技术的测试主要依赖于物理环境,这导致进展非常缓慢。近年来,随着数字孪生、人工智能等技术的快速发展,仿真技术越来越多地被应用于人形机器人的开发过程中,为人形机器人的研发开辟了新思路。
机器人的主要挑战在于“仿真与现实的差距”(sim-to-real gap)——也就是仿真结果与实际表现之间的差异。像Omniverse这样的技术进步显著缩小了这一差距,使仿真成为机器人开发中的一种可行且有效的工具。
某种程度而言,机器人开发比自动驾驶更难——Deepu Talla指出。对于自动驾驶来说,主要是避免障碍并确保安全,而无需与物理物体交互。而在机器人领域,涉及到的是与物体的接触、碰撞和复杂的物理交互,这些都更难测试和优化。
“为了解决机器人领域的挑战,我们需要三台计算机:第一台计算机用于训练:这是用于训练AI模型的系统。训练通常在云端、数据中心或像NVIDIA DGX这样的强大系统上进行。这是构建机器人‘大脑’的关键步骤。第二台计算机用于仿真:一旦训练完成,就需要进行测试。以往的标准是物理测试,但这种方式既慢又昂贵,还存在风险。更好的解决方案是引入一个‘仿真层’,即‘数字孪生’,在虚拟环境中完成测试,无需受到真实世界时间或成本的限制。第三台计算机用于部署:第三种系统安装在机器人内部,它就是操作物理机器人的‘大脑’。对NVIDIA来说,这可以通过像Jetson或AGX这样的系统来实现”,Deepu Talla解释说。
通过整合这三种系统,可以显著缩短开发时间。这个循环过程(训练、仿真、测试)使得机器人技术进步能够在5年内完成,大大加速了整个开发部署流程。
突破2:合成数据——打破交互瓶颈,助力机器人海量落地
正如Deepu Talla所指出的机器人与真实世界的交互难度,仿真到真实的迁移绝非易事。以ChatGPT这样的流行模型为例,是在大型GPU和来自互联网的海量文本数据上训练出来的。但机器人模型的训练需要完全不同的数据。
由于机器人需要执行动作,比如拾取物体、移动、交互或完成任务。再进一步说,如果想模拟一个机器人抓取物体的场景,就需要构建一个仿真环境,并对物体及场景的各种属性进行定义,包括物体的形状、材质、纹理、质量、摩擦力等。“遗憾的是,目前这种数据在规模上根本不存在”,Deepu Talla说。
他指出,已有的数据收集与解决方案主要存在两方面挑战:
一是现实世界数据的局限性:与自动驾驶汽车可以依赖现有车辆通过传感器收集数据不同,目前机器人的数量还远远不足以产生可比的数据量;二是当前的方法包括使用Apple Vision Pro或动作捕捉套装来记录人类动作的示范,这些方法虽能提供有用的数据,但规模太小,无法完全满足机器人模型的训练需求。
“没有足够的数据,机器人模型无法进行有效的训练、测试或部署。这使得数据的收集和生成成为解决机器人开发挑战的关键第一步。通过采用这种结合现实与合成数据的创新工作流,我们正为机器人领域的重大进步铺平道路”,Deepu Talla表示。
对于解决这一问题,合成数据生成变得至关重要。通过合成数据,可以生成特定动作(例如抓取物体)的无数种变化,或者构建完整的虚拟环境。
最新推出的NVIDIA Cosmos,就相当于是一个“世界基础模型”(“世界”指的不是地球,而是机器人交互的环境,例如机器人操作的房间内可见区域),它可以生成高度逼真、类似视频游戏的环境,用于机器人训练。
一个简单的例子可以理解“世界基础模型”带来的好处。在开发过程中,可以直接输入自然语言指令,比如“构建一个包含玻璃花瓶、木质桌子和金属桌腿的室内场景”,世界基础模型就能够自动解析这些指令,并基于其对于物理世界的理解,构建出相应的仿真环境。这样一来,就可以大幅节省构建仿真环境的时间,同时提升仿真环境的真实性和多样性。
“通过将少量的现实世界数据与使用NVIDIA Cosmos生成的大规模合成数据相结合,就可以克服机器人技术中数据稀缺的问题”,Deepu Talla表示,“目前,这种新工作流已经宣布并部分上线。我们正在与全球合作伙伴共同实施这一解决方案,以解决机器人领域的基础数据挑战。”
银河通用合成数据突破,机器人走入广泛场景
在刚刚结束的CES上,当14台人形机器人在黄仁勋身后缓缓升起时,他说,“通用机器人的ChatGPT时刻即将到来。”这其中就包括银河通用的人形机器人,它稳稳托举起了NVIDIA新一代显卡产品RTX5090。发布会结束后,黄仁勋第一时间参观了银河通用的展台,并亲自体验了银河通用人形机器人替用户取货的全流程。
为了推动人形机器人的发展,NVIDIA构建了完整的用于合成运动生成的Isaac GR00T Blueprint,这是一项非常全面的针对人形机器人开发通用基础模型的计划,涵盖从数据生成到最终部署的完整流程,可帮助开发者生成海量的合成运动数据,以便通过模仿学习来训练人形机器人。
创立于2023年5月的银河通用,创业伊始,目标也是聚焦于“通用”。王鹤表示,“本质上,我们希望打造与专用机器人不同,能够实现通过人形高自由度的机器人进入各行各业,走进千家万户。”
银河通用创始人、CTO 王鹤
谷歌和特斯拉的数据显示,采集13万条数据需17个月、16名工程师和13台机器人,成本高达百万。这也意味着,短期内,真实世界数据驱动人形机器人实现具身智能的突破难度较大。
据介绍,银河通用自创立起便致力于通过合成数据推动智能发展,是该领域的早期探索者。通过利用NVIDIA Isaac系列和Omniverse等工具,合成大量机器人操作数据并转化为模型;以及通过融合3D资产、环境和材质纹理,模拟机器人运行场景,探讨其操作物体的方式。
王鹤解释说,在这一过程中,仿真器和渲染引擎至关重要,因为它们用于验证合成场景的物理正确性,并通过并行渲染器生成海量合成数据。
目前,银河通用在这方面的进展主要包括:合成机械臂抓取苹果和眼镜的轨迹,利用丰富的物体和材质库,满足多样化需求,同时覆盖不断变化的场景、光照、纹理和动作轨迹,以涵盖各种可能情况。
让王鹤引以为傲的是,银河通用完全基于自研的10亿级别的合成大数据,训练出了全球第一个堪称基础模型的技术,也是迄今为止全球最大的机器人基础模型——10亿级数据。这些数据并非来自真实世界,所有数据都来自合成,没有任何真实数据。
这一基础模型具有诸多显著特性,满足七大泛化“金标准”:光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。它能够根据输入的语言指令,直接针对特定任务进行操作。
在银河通用的现场演示中,这款模型展现了多项突破性的能力,包括抓取不同位置的物体。四种球在不同高度上可以变换背景,如水泥桌面、金属桌面、大理石桌面、木质桌面等。对于各种颜色的餐布,也能很好地适应。
演示中,该模型展现出了令人惊艳的三大表现:
首先是随机说出一个物体名称,即使这个物体没有出现在合成数据中,机器人也能进行抓取。据了解,这是因为模型的开展通过监督闭环,能够实时调整并进行碰撞处理,因此提升了抓取的成功率。
其次是面对特殊新需求,机器人运用基础大模型的能力。比如抓取一箱瓶装水,演示中,针对“东方树叶”这个品牌,机器人在包装上采集了200条数据后,模型学会的能力便可以应用于其他品牌。此外,还有对于一些特殊零件抓取任务,即便不清楚零件具体名称,采集 100 条数据并掌握零件名称后,模型就能实现对其抓取。
第三是在家庭等场景中,人们对机器人的行为有特定的偏好。例如抓取杯子时,机器人不能碰到杯子内壁。通过少量数据进行训练后,就可以教会机器人如何帮助人们抓取不同的杯子而不碰到内壁。
“这种偏好设定对于机器人的应用至关重要。想象一下,如果现有的大模型在应用时仍需大量数据(几千条甚至几万条)才能理解用户的偏好并融入其中,那么机器人落地应用将变得极为困难,不仅需要较长的数据采集时间,这部分成本也会转嫁到产品上,最终影响产品交付给客户”,王鹤强调。
银河通用基于10亿规模合成大数据训练的模型,仅需100条数据就能满足企业需求,显著减少数据采集时间和成本。该模型作为基础模型,能快速理解客户需求并泛化到同类物体,如零售店中的不同产品。它能迅速部署到企业中,加速具身大模型机器人的行业应用。借助大数据,银河通用完成了更多复杂任务,如灵巧抓取。通过10亿级别零售数据训练的扩散模型,实现了四指或五指操作的精准抓取,成功率超90%,为灵巧操作奠定了基础。
此外,银河通用将模型与足式机器人结合,在NVIDIA Isaac引擎中大规模应用。全身控制学习使机器人自主运行,完成任务。例如,宇树的四足机器人能绕未名湖捡垃圾,精准识别垃圾,基于强化学习,不依赖真实数据。这种能力可针对不同材质、形状、地形等灵活调整,实现室内外及不同场景的良好泛化应用。
人形机器人如何克服真实场景落地挑战?
尽管合成数据大幅降低了数据挑战,但是在实际应用中,人形机器人仍要面临与现实场景不一致的挑战。如何进一步缩小虚拟与现实环境的差距?
Deepu Talla表示,GR00T Blueprint通过多样化的参考架构,可为特定任务提供定制化的blueprints,以减少合成数据与现实场景的不一致。它包括GR00T-Mimic工具,可生成多种轨迹,以及GR00T-Gen,利用Cosmos技术将3D数据转换为不同格式,支持现实场景复杂性的模拟。此外,平台为视觉、语言和动作(VLA)模型训练及机器人策略测试设计了专用蓝图,如Isaac Lab仿真环境中的测试蓝图。
GR00T平台还注重实时多模态数据处理,能够整合摄像头和传感器数据,与机器人执行器无缝协作,提升环境感知能力并缩小仿真与现实的差距。并且,依托Omniverse的Isaac Sim仿真环境,通过数字孪生技术高度还原真实场景,结合物理交互属性,能够确保仿真环境的现实一致性,帮助机器人精准适应真实场景。
正是通过多种工具的结合,NVIDIA实现了灵活且可扩展的平台。“我们的目标不是制造人形机器人,而是打造一个平台,使每个人都能创建自己的机器人。我们正在不断为平台添加更多功能,以确保其灵活性和可扩展性”,Deepu Talla补充。
除此之外,使用合成数据训练机器人,确保物理上的真实性和准确性也是一大挑战。
对此,王鹤解释,尽管仿真器正在不断发展,物理建模和接触模拟的应用也在持续进步。然而也必须承认,目前没有任何一个仿真器能够完全模拟真实世界。
因此对于使用仿真器的机器人公司来说,如何平衡数据生成与真实机器人对接始终是一个挑战。目前,解决这个问题的途径是,通过算法手段将仿真与现实世界的差异缩小。例如,通过贝尔曼最优性原则,采用预随机化方式,对接触面上的摩擦力、材质,以及物体的质量中心、质量大小和分布等问题进行随机处理。实际上,现实中存在诸多复杂因素,在仿真环境中处理这些因素比在真实环境中更具挑战性。
他补充,虽然仿真器不需要与真实环境达到完全一致,但它应该具备更好的鲁棒性和泛化能力,能够在各种应用场景下保持有效性。这也是银河通用一直以来努力钻研并持续推进的技术,目标是确保机器人在仿真中学习到的策略能够在现实世界中有效应用。
写在最后
传统的机器人开发方法主要是基于规则进行编程,这种方法在面对高度复杂和不可预测的环境时,往往会力不从心。而基于深度学习的方法则不同,它可以让机器人通过观察和模仿人类专家的示范来学习新技能,
不过,这需要收集大量广泛且高质量的数据集,而这些数据集的收集往往既繁琐又耗时,成本高昂。面临这些挑战,NVIDIA打造的仿真环境,以及与业界在合成数据等方面探索,正在逐一打破这些瓶颈,为人形机器人注入新灵魂,开启新范式,推动人形机器人产业步入快速发展期。