如果强化学习是问题，大模型是否是「答案」？

作者 | 陈鹭伊，编辑 | 岑峰

“强化学习让大模型具有了思考能力，大模型为强化学习提供了更开阔的思路。”

在当今大模型推动的新一波人工智能的快速发展浪潮中，大模型和强化学习技术的结合成为研究和产业界的焦点。尤其最近OpenAI最新模型o1的发布，强化学习成为o1的灵魂，更是印证了强化学习的潜力。

大模型凭借其强大的数据处理能力，为强化学习提供了丰富的知识。这种结合不仅极大地扩展了人工智能在处理复杂问题上的能力，也为强化学习带来了更深层次的洞察力和更高效的决策过程。

强化学习，作为优化决策的一种方法，能够通过与环境的交互学习最佳行为策略。而大模型则为这一过程提供了必要的背景知识和先验信息，使得强化学习算法能够更快地收敛，更有效地处理未见过的新情况。然而，新技术的发展同样带来了挑战。例如，如何利用大模型的知识拓展强化学习的泛化能力，提升强化学习在复杂决策场景中的策略性能，以及如何保证模型的可解释性。近期，南洋理工大学安波教授团队的一篇论文《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》上线期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）。

该论文提出了一个名为TWOSOME的框架，旨在通过强化学习（RL）将大型语言模型（LLMs）与具身环境（embodied environments）对齐，以解决决策任务。

围绕该论文所讨论的强化学习与大语言模型、具身环境相结合的研究，雷峰网举办的「大模型时代的强化学习」线上研讨会，汇集了南洋理工大学安波、南京大学俞扬、华为诺亚方舟实验室/天津大学郝建业、清华大学许华哲等行业专家。他们的见解覆盖了从基础理论研究到产业应用实践，为我们提供了一个全面而深入的视角，以洞察这一领域的最新发展和未来趋势。

在本次研讨会中，安波教授深入分析了大模型对于强化学习的意义，并对这一技术的未来发展进行了展望；分享了他对大模型时代强化学习的看法，包括大模型给强化学习带来的机遇和挑战，并主持了整个讨论。

俞扬教授基于给定的问题进行了深入拓展，特别强调了世界模型的重要性，他认为构建准确的世界模型是实现真正智能决策的关键。他强调了强化学习在实际应用中的重要性和挑战，并通过在工业界应用强化学习的实际案例，讨论了如何利用强化学习优化复杂的决策过程。

郝建业教授指出了大模型中强化学习的作用，包括安全对齐和人类价值观对齐，并分享了强化学习技术在推荐系统、游戏AI、工业软件优化以及自动驾驶等领域的应用，以及大模型技术如何帮助强化学习解决一些传统优化问题等。

许华哲教授，以他在具身智能领域的前沿研究为基础，展示了强化学习如何使机器人更加智能化，分享了他在具身智能领域的研究，特别是强化学习在机器人步态优化和Minecraft等环境中的创新应用。

以下为本次圆桌对话全文，限于篇幅，雷峰网-AI科技评论进行了不改原意的编辑：

安波：AI 科技评论以及雷峰网线上的朋友们，大家晚上好，欢迎参加今天晚上我们这个网络研讨会。今天我们这个题目叫大模型时代的这个强化学习，我叫安波，来自南洋理工大学，我将主持今天晚上的研讨会。关于这个题目我稍微说两句。强化学习这个方向最近十多年尤其在Alphago 之后是一个比较火的方向，差不多我们可以看到 Deepmind 的整个公司，估计早期 100% 都在干这个东西，这些年来每年都有很多非常轰动的成果。无论是Alphago，还有 AlphaFold ，最近的应用于大模型的RLHF，都是跟强化学习相关的。当然我们也不可避免地存在很多挑战，尤其是之前有人一直在抱怨，好像（强化学习）很多都是以打游戏这样的场景为主，真正的在现实工业的落地场景还不够多。我们今天晚上另一个话题是大模型，大家都知道这是这两年最火的方向。最近也出现了很多工作来结合这两个方向，这也是我们今晚讨论的话题。今天晚上我们很荣幸地邀请到了三位嘉宾。南大的俞扬老师，是强化学习方面有很多有影响力的成果，他同时也在做强化学习落地的一些研究和应用。还有郝建业老师，来自天津大学，同时他又是华为诺亚决策智能实验室的主任。华为诺亚这几年做了很多强化的一些研究，都是在郝老师的领导下进行。最后是清华大学许华哲老师，许老师更多的做具身智能的研究。这三位老师既在一线做前沿研究，同时也深入技术应用与落地。就接下来我会邀请三位老师分别做一个简短的自我介绍。然后接下来我们会问各位老师我们提前准备好的几个问题，然后最后我们会进入与观众的互动环节，现在请俞老师、郝老师和许老师分别做个自我介绍。

俞扬：大家好，感谢安老师的邀请。我是来自南京大学的俞扬，大概在13、14年前我博士毕业后，就一直在研究强化学习。近几年主要在做离线强化学习，就是强化学习怎么样能够更好用一些。

郝建业：大家好，感谢安老师邀请，我的主要研究方向是强化学习和多智能体系统。过去几年主要围绕强化学习以及学习优化技术如何在产业界落地，做了不少的尝试。过去两年也比较关注大模型，包括强化学习如何助力大模型和基于大模型的具身智能方向。

许华哲：大家好，我是许华哲，目前是清华大学交叉信息研究院的助理教授，今天也是特别荣幸受到安老师的邀请。我的研究方向主要是具身智能，这是一个很大的概念，会使用各种学习的研究工具，而强化学习是里面我觉得是未来最广阔，或者是未来最有前途的方法之一。我在强化学习方面的工作主要分两个部分，一个部分就是仍然持续地提升强化学习的sample efficiency样本效率。我们希望它做得足够高效，让它可以在真实世界去实施。第二件事，就是说在这个基础上，我希望让机器人可以在不仅在仿真，而且还可以在现实世界去做强化学习，从而让强化学习真正落地到这个机器人这个领域，或者具身智能这个领域。

01、强化学习：成功应用与关键作用

安波：我首先想请教各位老师一个问题，各位老师都在一线从事强化学习的研究以及落地，有哪些强化学习的成功案例让您感到激动？并请谈谈它们在各自领域的推动作用。从俞扬老师开始。

俞扬：我觉得关于强化学习的成功应用，首先需要明确我们如何定义"成功"。自AlphaGo战胜人类以来，强化学习领域受到了广泛关注。实际上，强化学习的应用非常广泛，包括工业界的一些案例。比如说我们和这个美团合作的项目，现在应该已经是在全国能够铺开。那么我们在美团每下一个订单，每点一次外卖，都由我们强化学习的模型在做出决策。这对我们来说是一个重要的应用案例，它展示了强化学习的实际应用。但是在社会层面上，这种应用可能没有引起太大的宣传效应，或者说我们说给强化学习的研究生们创造饭碗的这个效应可能没有那么强。

如果从能够产生很多工作岗位的这个角度来说，我觉得这个可能最典型的成功案例就是用在大模型的RLHF，我们也做了一些工作。可能有同学了解， RLHF 还有其他路线的竞争，包括这个监督学习的路线的竞争。但是我们的研究表明，监督学习的方法得到的结果比强化学习的要差一些。包括我们自己的一些毕业生，也有去做大模型的 RLHF 的这个岗位。我观察到，强化学习现在变得更加的成熟，逐渐地在越来越多的场景里面能够更多的能够用起来，至于它用起来产生的社会效益是否轰动可能还不太好去评价。

郝建业：刚刚俞老师提到强化学习在推荐领域的应用，我觉得可能是深度强化学习出现之后最火的应用场景之一。另外一个就是游戏， Game AI ，很多游戏公司包括网易、腾讯其实有很多应用，包括现在游戏背后的NPC，很多都是强化学习训练的结果。此外我想举两个可能不太常见的例子，一是工业界的软件优化，比如说 EDA 的芯片设计这块，它本身有很多非常复杂的多目标时序优化问题，过去几年，我们尝试把强化学习应用在这个领域，当然不仅仅是强化学习，还包含一些其他的优化技术的组合，但强化学习在里面发挥一个比较关键的作用，实现比较复杂约束和搜索空间非常大的情况下的优化问题。

另一个例子是自动驾驶。比如在自动驾驶的关键博弈场景中尝试应用强化学习，实现类人的博弈策略，提升自动驾驶车辆在复杂路况下的通行效率。大模型方面刚刚俞老师也提到了，我们过往经验发现，强化学习不仅仅像最开始OpenAI提出，用 RLHF 来做安全的对齐，它还可以在大模型的全链或者全栈的基础能力提升中发挥关键的作用。

从理论上看，PPO、DPO等算法的优化的这个范式和标准的SFT 是不一样的，可以发挥一些 SFT 无法实现的能力，可以帮助我们在这个预训练到 SFT之后的后训练阶段发挥更加关键的作用。此外，具身智能也是一个值得关注的领域。目前，这一领域正处于一个百花齐放的发展阶段，但我觉得，未来无论是在线的还是离线的强化学习，在整个具身智能能力构建的全阶段，无论从数据的获取到预训练，再到跟环境交互的 RLHF，都可以发挥非常关键的作用。总的来说，强化学习作为一种通用优化工具，是一套非常有效的方法，可以帮助我们在各种复杂决策场景中提升策略性能。

安波：谢谢郝老师，有请许老师分享一下。

许华哲：我的观察主要在我做得比较多的机器人领域，特别是强化学习用在机器人里面的 Local Motion，就是步腿式机器人或叫足式机器人的步态优化上面。自2019年ETH的机械狗使用强化学习方法成功爬山和越过障碍物以来，这一技术已经衍生出许多创新，包括CMU和清华大学在机械狗跑酷方面的研究。后面催生出来的双足机器人也通过强化学习来进行步态控制。我觉得这是强化学习在具身智能和机器人领域的一个巨大的应用。这件事的重要性在于，强化学习基本上从研究上确定了SIM to Real 这件事，在步态控制这件这个方向上面是可以落地的，是可以真正用在现实中的商用的机器人上面。

从商业的角度，这样一个技术创造了大量的工作岗位，现在那么多的机器人创业公司，几乎每一个公司都有一个强化学习小组专门研究控制机器人的下肢。此外，我还注意到了lyft用强化学习去优化出租车和网约车调度的情况，这可能也适用于国内的滴滴或者美团。刚才郝老师说，强化学习作为一个非常强的优化器，甚至有的时候叫Superhuman，超过人类的优化器，能够在我们认为已经达到极限的地方进一步优化，为公司节省大量成本。尽管这种应用还没有广泛铺开，但已经展示了强化学习在未来发展中的潜力。

02、大模型与强化学习的结合：技术突破与应用前景

安波：谢谢各位老师的精彩分享。从早期的推荐系统到最近的大模型结合强化学习（RLHF），可能是这几年就说强化学习跟大模型结合比较成功的一个地方。俞老师和我之前与滴滴有过主要基于强化学习的合作，这些应用今天仍然非常有价值。郝老师提到了EDA，这可能与华为的一些项目落地有关。具身智能也是一个重要领域。接下来我们进入今晚的核心议题：大模型与强化学习的融合。大模型基于大量的数据进行训练，具备了通才的能力，许多人开始利用大模型作为系统的"大脑"，完成以前无法实现的任务。在大模型与强化学习的结合方面，也有很多工作，例如解决强化学习中的一些问题。我的第二个问题是，请各位老师分享一下，在大模型加持下，强化学习解决了哪些问题，以及近年来这个领域有哪些重大进展，尤其是在过去一年多里，大模型的加入给强化学习带来了哪些显著成果。我们稍微改变一下顺序，先请许老师开始分享。

许华哲：虽然我不是做大模型的，对大模型相对来说了解不是那么深入，但我也听说了很多强化学习与大模型结合带来的好处，比如说大家都知道最典型的 RLHF （强化学习中的人类偏好反馈），通过让人类评估的偏好指标来指导大模型的输出，用强化学习使得它输出的东西不仅正确、通畅的，而且还是人类喜欢和期待看到的。

我们看到大模型有两个特点：第一，它总是（基于自己的知识）很客观积极地回答问题；第二，它倾向于分点阐述，如1、2、3、4。这在一定程度上反映了RL的作用，即分点阐述的重要性。大家平时听别人汇报工作还是给别人汇报工作，都可以感受到分点是非常重要的，很显然标注员也是这样的偏好，RL成功地找到了优化方式，使大模型能够像人类一样给出答案。此外，我认为大模型跟强化学习还有更深层次的结合潜力。以我们自己的一个项目为例，RLHF不仅可以作为一个通用的优化器，还可以 learning from others，还可以通过学习其他大模型来提升自身能力。这在某种程度上是一种知识蒸馏的过程，除了通过监督学习进行蒸馏外，还可以通过RL来蒸馏其他模型，从而补全和增强大模型的能力。

安波：我再稍微深入问一下，许老师在 Minecraft （游戏：我的世界）上做了很多工作，能否分享一下大模型在解决Minecraft中的复杂问题方面带来的变化？

许华哲：大模型展现了优秀的规划能力，例如，在Minecraft中，当你问它如何获取一个钻石时，它能够提供详细的步骤。它通过阅读网上的攻略，观看网上的视频和学习网上各种文字论述，它会告诉你你要先有一个锄头，然后挖掘一种特定的黑色矿石，再把这个矿石通过什么方式升级成钻石等等。这里最常用的一种方法是，利用大模型做顶层的 Planner （规划器），然后底层的执行可能由强化学习或者其他的Controller（控制器）完成。另一种方式是大模型以VLA（视觉语言代理），直接输出底层动作来完成任务。这方面还在一个研究的初始阶段，并没有一个特别成熟的方案。介于这两者之间的方法是，大模型输出中间表征或中间状态，这种中间状态不是简单的指令，而是具体的指导，如在地图上标记一个框，指导玩家前往并挖掘。这种中间表征能有效解决 Long Horizon 长距离的任务，这是传统强化学习难以处理的问题。

安波：谢谢许老师，郝老师请分享

郝建业：谈到大模型对强化学习的帮助，我们可能先从以前做强化学习包括深度强化目前面临的问题来谈起。传统强化学习主要在特定环境下使用，挑战在于如何快速地以Online 的方式学习到适应当前任务的策略。这通常需要事先对问题进行一个很好的任务定义，包括MDP（马尔可夫决策过程）的构建，包括状态和奖励函数怎么定义。奖励函数的设计对于训练结果至关重要，需要大量的人工的介入，这是以前强化学习的一大挑战。大模型的出现为这些问题提供了解决方案。

首先，大模型可以自动化评估奖励函数，这是目前一些研究工作的重点。包括在具身领域，例如Eureka项目，利用大模型来自动化地提供一个比较好的奖励函数，使强化算法在任意的环境下更加高效和自动化地和环境交互，学习到好的策略。这是大模型在奖励函数设计方面提供的新手段。其次在表征方面，以前需要精细设计以提升策略的泛化性，包括去学习到一个比较好的表征来去提升策略的泛化性。基于transformer的大模型架构，给我们提供了一个新的思路，我们可以借鉴语言大模型的思路，如果有大量不同决策任务的数据，可以训练出具有强泛化性的决策函数（policy/task extended value function）。这对于强化学习来说，是一个新的思路。

如果我们有海量的不同决策场景的高质量数据，那我们是否可以类似于大模型一样预训练一个从SFT，到RLHF、RLEF（RL From Environment Feedback）的全链条的、面向决策领的通用决策大模型？大模型对于强化学习的一个启示是可能会颠覆我们现在对决策领域的认知，可以借鉴语言大模型的思路去实现决策领域的通用大模型，这可能是未来探索的重要方向。最后一点刚刚其实俞老师也提到，大模型本身具备对世界的良好认知，所以它可以帮助我们做一些比较复杂的上层任务的拆解，然后底层配合基于强化学习的控制，去实现一些更加复杂的物理开放环境下的决策能力。

安波：请俞老师分享。

俞扬：我们讨论的问题是语言模型对强化学习的帮助。首先我想阐明的一点是，强化学习它是一个任务，它不是一个具体的技术方法。我们要解决的是一类多步决策的问题，这一类问题我们把它做强化学习的问题，也就是说我们首先面对的是一个决策问题，可能采用多种不同的决策的技术，如运筹规划。这种多步的和环境交互的这种决策可以归到强化学习这一类任务，它不是通过数学定义的一个式子，而是要和环境进行交互从样本中学习，它并不是说某一种很具体的算法所代表的技术。强化学习面临的挑战在于，就是我们今天看到的所有强化学习成功的案例，都是非常特别的应用案例，非常专注解决一个很具体的一个问题，如下围棋。一旦下围棋的模型训练出来后，这个模型本身是不能去解决其他问题，这显示了强化学习的通用性不足。我们希望强化学习能解决多种问题尤其是多步决策的问题，主要面临两个方面的挑战，首先，技术门槛较高，对强化学习概念和算法的理解要求高，可能比其他领域更高。其次，在应用水平上也有更高要求。这些要求之所以高，是因为强化学习处理的是决策问题。如果观察其他决策任务，如运筹规划，会发现应用常局限于特定行业。

例如，我们设计了很多运筹规划的算法，但从企业层面，这种应用经常往往固定在某些领域，如特定行业的排班排产。这在一定程度上是由决策本身的性质造成的，决策结果的要求通常非常高，与预测类问题不同，大模型这个语言输出错了还可以再改一下，但是决策类的问题，质量的输出的要求会很高，因为决策错误的代价可能很大。因此在实际应用中，需要结合领域知识和专业背景，达到一定水平才能有效应用。我们发现，要满足决策应用，强化学习的通用性通常不足。大语言模型火了一年多、快要接近两年，它带来的帮助主要体现在其学习了大量数据，展现出较好的通用性。这种通用性有潜力弥补强化学习在通用性方面的不足。

这里的“潜质”意味着大语言模型有可能帮助强化学习扩展其通用性，尽管面临的挑战依然很大。首先我们看到语言模型本身正朝着智能体（agent）方向发展。在智能体领域，大多数任务都是决策类的，因此也会面临决策任务的挑战。决策任务与语言生成任务是两个完全不同的任务，只不过我们是希望语言模型能够再往前走一步，去执行决策任务。

目前，智能体的应用还未达到理想的效果，因为它涉及到决策任务。一旦涉及到决策任务以后，由于它天然的这种对于决策准确度的这个要求，对决策准确度的要求自然提高。语言模型之所以受欢迎，一方面是因为它在应用上的要求较少，主要作为人的输出辅助，将语言输出给人，再由人进行加工。这种辅助性行为在人不懂的地方表现得非常好。但当我们真正需要解决决策问题时，面临的挑战是人的专业性，通常需要专家来做出决策。智能体需要至少达到专家的水平，很多时候我们甚至要求它比专家做得更好，才能在实际中得到应用。这种在任务性质上存在的天然的差别，让我对今天的语言大模型是不是真的能够帮助强化学习拓展它的通用性持一定的怀疑态度。

例如，在Minecraft中表现出色的示例，我们去发展一个技术，希望它有一定的智能的能力，那么我们一定是希望能够控制他的这个能力，我们要知道这个能力从哪来，这个能力是怎么形成的？如果他不具有一个能力的话，我们怎么能够让他加强？如果他这个能力超出我们的这个希望他能做的这个范围，以后我们怎么去控制他？

目前的语言模型似乎难以控制，换句话说我们不清楚它究竟能解决什么问题。以 Minecraft 为例，我们认为它表现好可能是因为网络上有相关攻略。能够通过语言模型来引入知识。但如果面对没有见过的问题，没有知识储备的问题，例如NP是否等于P，模型如何应对？这个东西是没有答案的，那么他怎么来做？我们如果希望他具有做这做一个新的任务的知识的时候，我们该怎么组织一些语料给他？目前，这些问题还没有系统性的答案。这导致我们在解决问题时缺乏一套方法论。现在的方法似乎是，如果语言模型表现好，问题就能解决；如果模型表现不佳，我们就束手无策。我认为这不是一种科学的解决问题的方式。我认为目前的方案尚未形成一个完整的体系。

进一步讨论涉及到所谓的智能核心是什么。一些人可能认为智能以语言模型为核心，但从生物学角度来看，只有人类具备完整的语言能力，但并非只有人类拥有智能；或者一些失去语言能力的人仍然具有智能。大脑结构中，语言所占的部分非常小。所以语言模型它是不是智能的核心呢？当然目前还没有结论。我们也在探索强化学习，特别是决策相关的模型。可能不仅仅是强化学习策略模型，还包括世界模型。我们还在探索其他类型的模型，在探索这些以其他模型为核心的时候，我们希望强化学习的语言模型能帮助提取其通用背景知识能力。目前，我们正尝试从大型语言模型，甚至多模态模型中提取知识，将其融入我们的策略模型或世界模型中，使我们的行动模型真正具备更好的通用解决问题的能力。

03、未来展望：潜在突破与当前瓶颈

安波：谢谢俞老师，他进一步提出了大语言模型是否通向通用人工智能道路等更开放的问题。从刚才各位老师的分析来看，大家都基本认同大语言模型至少在某些任务上提升了强化学习的能力。例如，之前无法用强化学习或其他方法完成的任务，现在借助大语言模型广泛的基础知识，提高了效率，解决了之前无法完成的工作，等等。当然，还有很多基础问题，比如大语言模型是否是实现智能的正确道路，以及强化学习的方向，一直存在争议。有人质疑语言模型的正确性，对强化学习也有不同看法。尽管存在争议，但大模型的引入无疑解决了之前无法解决的问题。我个人认为，重要的是解决问题，而不是争论哪个是最终解决方案。我们应该避免只有批评没有建设性建议的情况。这也是Yann Lecun攻击Gary Marcus的时候的观点。

接下来，我们按计划讨论第三个问题。

假设大语言模型或基础模型对未来的强化学习有帮助，您认为未来一到两年可能在哪些领域出现突破性进展？目前的瓶颈在哪里，我们能做些什么实现巨大突破？关于大模型与强化学习结合前景的展望，哪些问题值得大家研究？我们还是按照刚才的顺序，请许老师先开始。

许华哲：关于未来的展望，我觉得刚刚郝老师聊到的一个方向还远远没有做透，即如何利用大模型提供监督信号或引导来辅助强化学习。我们在实践中遇到许多问题，比如大模型反馈速度慢，最快可能只有三赫兹，而强化学习通常需要密集的奖励信号，可能我需要这个每一步都有一个Reward，在这种情况下，如何让大模型提供足够的反馈以支持强化学习，实现无需人工设计奖励函数的训练？因为强化学习被这个批评的一个点就是人工设计的部分很多，我要抓一个小物块，那我也需要把距离，然后把这种各种惩罚都写到奖励函数里，那这套东西能不能真的完全的高频的靠大模型给出？这是一个非常有意思的课题。另外因为我也做一些跟机器人相关的工作，我认为使用强化学习微调大模型，使其能够执行动作，也是一个有趣的点。

目前，视觉语言代理（VLA）是一个热门话题，它能够将图像和语言输入并直接输出动作。VLA 展示出的泛化能力特别好，遇到新的具身，它可能只需要少量数据甚至零样本就能迁移过去。但我们发现VLA在简单任务上表现良好，而在更复杂的任务上往往失败。VLA蕴含大量知识，能否用强化学习像调整Lora一样调整VLA，使其自动输出正确的动作，将大模型作为强化学习的一个基础，这也是我认为很有意思的一个方向。在决策方面，我们之前也尝试用大模型与强化学习联合解决一些有趣的问题，如旅行商问题或在三维空间拼图，这些都是NP-hard问题。单靠 RL 可能复杂度非常高，然后单靠大模型可能只能给出一个近似正确或者直觉的一个解，我们尝试让大模型提供直觉，然后让强化学习在直觉附近进行优化，我们已经做了一些初步的尝试。

安波：谢谢许老师，许老师刚刚更多的讲的是其他的 RL 与大模型结合，用 RL 来Finetune大模型，或者大模型来帮助 RL 训练，比如我们之前看到几个月前伯克利的Digit RL 之类的工作，应该是属于这个思路。下一位是郝老师。

郝建业：首要任务是利用强化学习（RL）提升大模型的技术能力。许老师刚才也提到，根据我们自己的经验和业界公开信息来看，在整个后训练阶段，除了监督式微调（SFT）之外，RLHF（强化学习中的人类偏好反馈）可以发挥更关键的作用。特别是，RLHF可以与SFT深度融合，通过多轮迭代，在后训练阶段全方位提升大模型的基础能力。我们认为，RL技术在这方面可以发挥越来越重要的作用，具有SFT不可替代的优势。

另外，大模型与RL的结合面向未来广义智能体（Agent）的应用场景，无论是虚拟的智能体，如App智能体、Web智能体，包括数据科学智能体（Data Science Agent），甚至未来可能出现的操作系统级智能体，帮助人类操控APP，实现与虚拟世界的复杂交互需求。还有面向具身场景的，如何让机器人在与物理世界的交互中持续自我演进，RL在这里可以发挥非常关键的作用。如何让智能体具有持续自我演进的能力，RL技术在未来广义的智能体技术演进中将发挥非常关键的作用。

安波：俞老师怎么看？

俞扬：关于强化学习与大语言模型结合的未来和可能的突破，我们目前观察到无论是语言模型还是多模态模型，它们通常缺少一个关键元素，即行动（action）。我们的决策并不包含在输入中，因为文字就是文字，图像和文字经过编码后混合在一起。如果行动的输入被纳入模型，我们更愿意称其为世界模型，即通过每一步的不同决策引导模型朝不同方向发展。其实世界模型是一个老话题，但今年Sora的出现，因为它自称为世界模拟器（World Simulator），使得世界模型这个词变得非常热门。

然而，我们还没有看到一个完整的技术路线来构建世界模型，因为它与现有的语言模型和多模态模型不同，当我们的决策也要输入到模型中时，带来了一个非常大的变量。决策是一个自由变量，可以任意变化，我们的模型需要能够预知任意变化的决策会带来什么样的未来，这是一个极具挑战的任务。Yann LeCun也一直强调这一点，他从ChatGPT刚出现时就开始批评它无法做决策，因为现有的预测器结构无法构建事件模型，因为它没有行动，没有决策。如果我们想象我们能够构建一个模型，对任何给定的决策都能准确预知未来，那么我们所谓的全L5级全自动自动驾驶可能就能实现，能够执行各种服务任务的服务机器人、人形机器人也可能成真。所以至少我个人觉得，世界模型是我们追求的东西，在技术体系中是一个非常缺失的环节。技术上，如何将决策加入模型，对各种不同决策，甚至是数据中未见过的决策，能够给出准确的响应，是一个值得我们深入研究的问题。

在前沿研究中，专门解决行动输入问题的研究并不多。目前的尝试与大语言模型技术类似，主要是针对数据进行训练。DeepMind在尝试构建世界模型时发现，仅凭高质量的数据训练是不够的，因为数据只能展示一种决策，或者是相似的一些决策能够带来什么样的结果。对于不同的决策，尤其是数据中未出现的决策，其结果无从得知，这就造成了决策维度的数据缺乏。而这种数据的缺乏，用当前构建和收集大数据的技术手段可能无法解决。以下围棋为例，围棋每一步的走法都是一个决策，如果都要收集，光围棋这一件事情，那么产生的数据量将远超现有数据。

因此，在缺乏数据的情况下，如何提高模型的泛化能力，使其能够预测不同决策的后果，是一个需要进一步研究的重要方向，也是我们正在探索的方向。另外，Yann LeCun最近讨论了强化学习与MPC（模型预测控制）的对比。他所指的强化学习是非常狭义的，即只能通过与环境的交互来学习。而他所说的MPC，广义上讲，就是世界模型。实际上，我们所做的大部分强化学习都可以归为MPC类别。因此，他们在Twitter上的争论，关于经典强化学习是否必须通过试错来学习，对于我们这些强化学习研究者来说，并不是一个需要争论的问题。

04、探索强化学习的边界：开放性问题与挑战

安波：感谢各位老师的深入讨论。俞老师最后提到了从语言模态出发是否能解决所有问题，以及数据空间的问题。我个人认为，我们需要世界模型，但由于数据缺乏，我们无法获得。但强化学习的探索能力，我们可以与环境交互,基于当前的感知，似乎是解决数据缺乏问题的一种方式。我们将进入最后一个更开放的话题，我希望我们可以更开放地展望强化学习的未来前景，大家可以更自由地发表意见。

比如可以质疑强化学习是否是正确的范式。如果是，未来将面临哪些挑战？有哪些未解决的问题？哪些方向值得我们关注？或者存在哪些瓶颈？我们还是从许老师开始。

许华哲：首先我一直认为，虽然强化学习的方法可能不一定完全正确，但问题定义本身无疑是正确的，我们正在解决的问题肯定是在正确的轨道上。我目前最关心的是真实世界的强化学习，即我们是否能找到一系列机器人任务，使其能在真实世界中进行交互，就像我们学习打网球或者做饭一样，无论是通过给 Demonstration 的方式，还是从模拟器里面去学的方式，但最终在真实世界部署后还能继续提升自身。这当然是许多研究者和观众朋友所关注的，他们可能认为强化学习在真实世界中的样本效率太低，几乎是天方夜谭。但事实上，我们仍在努力探索这一领域。

其次，我非常感兴趣的是，能否通过强化学习优化出一些更有趣的，类似于生物进化的效果。大模型在某种意义上是直接跳过了所有的发展规律，将人类的数据堆砌给机器，让机器去拟合这些数据。而强化学习则更像是允许机器去试错和发展，在这个过程中，它可能会发展出一套与传统大模型学到的不同的、更适合机器的智能。我觉得这是一个非常有趣的方向。例如，如果我们想让机器人跑得更快，如果我们只是让它学习人类数据，它可能最多只能达到博尔特的水平。但如果我们让它通过强化学习自行探索，它可能发展出某种神奇的跑法，跑得比人类更快。如果我们有一个足够精确的模拟器来模拟世界的一部分，那么它很可能可以衍生出一套属于机器自己的智能，这也是一个值得探索的有趣领域。

安波：谢谢许老师，有请郝老师。

郝建业：如果我们单独看待强化学习，它其实就是一种比较通用的优化工具或技术。但我们希望通过不同优化手段的组合，针对特定领域的实际问题，形成一套通用的优化解决方案，这是我们的最终目标。所以我觉得无论是强化学习，还是传统演化学习、贝叶斯优化等其他优化方法，它们之间具有很强的互补性。我们可以将这些方法有机组合，实现优势互补，帮助解决复杂优化问题，无论是生成高质量数据还是提供在线快速自我学习和演进的能力，都能发挥非常关键的作用。

因此，大模型和强化学习是互补的。大模型提供了更开阔的思路，我们借助高效的优化方法组合，针对特定问题实现解决复杂通用优化问题的能力。这个领域未来的发展空间非常大。另外，关于强化学习效率低的问题，我们可以类比人的成长过程。婴儿通过与周围人的交流进行预训练，类似于大语言模型的预训练，以及通过观察周围事物进行多模态预训练。更重要的是，婴儿从出生开始就通过手和脚去认识世界，如果大家有小孩就会注意到，他们喜欢抓各种物体，撕各种东西，通过自我学习的反馈，经过多年的学习，才形成了成人非常灵活的抓取能力。成人之后，进行复杂精细的操作也需要持续的交互学习。和人类相比，目前算法的样本效率是比较低的，我们可以利用强大的算力和仿真技术来弥补这一问题。通过类似于分身的概念，智能体可以并行地与虚拟环境交互，让智能体快速复制经验，并通过强化学习手段快速提升能力。随着大模型技术、算力和仿真技术的进步，仿真的真实度越来越高，未来有望实现面向特定领域的通用决策模型。

安波：感谢郝老师的分享。郝老师探讨了多种技术的融合，克服了训练效率等问题，您能否分享一些关键领域，以及如何利用强化学习作为核心技术？能否透露一两个方向，比如现在正在探索的一些问题？

郝建业：举个例子，我们做 EDA 的一些优化问题和一些智能体的场景，包括具身的场景，现在其实最重要的或者对性能影响最大因素是高质量数据。高质量数据的来源有几个方面：一是历史上人类或专家累积的大量数据；二是通过仿真合成数据。有了数据后，通过离线方式训练出具有一定泛化能力的预训练模型。然后通过在线交互接触更多的corner case，实现持续的自我演进。无论是自动驾驶、企业工业软件优化，还是智能体，这都是一套具有通用性的优化范式，可以沿着这个方向不断推进，提升能力边界。

安波：谢谢郝老师，谈到这个数据的问题，也请俞老师展望一下未来的挑战或者前景。

俞扬：我认为强化学习本质上是一个解决问题的工具，包括强化学习、运筹规划等技术已经发展了很长时间，并且已经相当成熟。成熟到何种程度呢？如果我们面对的是一个非常明确的封闭问题，例如中等规模的游戏，那十有八九人类是打不过强化学习训练出的智能体的。我们面临的挑战是开放世界的挑战，即我们面对的是一个未知的世界，这个世界中有太多不确定性。在这样的环境下，我认为核心挑战在于如何定义我们在开放世界中要完成的任务。

这个定义不能由人来完成，因为一旦定义，它就变成一个封闭的任务。那么我们就可以使用现有的求解器，包括强化学习和其他技术来求解。所以，我认为关键在于如何定义问题。未来在自动驾驶、具身智能等领域，我们面对任务后能否迅速将当前环境和任务定义为一个封闭场景，然后用现有技术解决，这是我们正在努力的方向。前面提到的世界模型，就是希望它能够做到这一点。至于数据，我始终认为数据越多越好，在同等技术条件下，我们能够实现的效果肯定是越好的。但从智能的根本上讲，智能不应该仅仅通过大量数据堆砌形成，我们应该探索如何提升算法和模型的“智商”，而不仅仅是大量喂食数据。当然，这是一个实现途径，在同等智商条件下，题目越多越好。但能否用少量数据就能获得高智商的智能体，就像人类一样，虽然一生中接触的数据有限，但都能具有相当高的智力，这是我们希望长期能够接近的目标。

安波：俞老师今天晚上多次提到世界模型，我想问一下你们最近在这方面有什么新进展吗？比如在特定领域，你们正在开发的模拟器等。

俞扬：我们目前在南栖仙策主要聚焦于工业环境。我们开发了一些技术，能够从较少的数据中还原世界模型。一旦世界模型被还原，决策就不再是问题。因为它不需要与真实场景交互，不需要试错。我之前提到的与美团合作的项目，能够在全国推广，也是基于世界模型的思路。因为在决策维度上，我们面对的数据永远是不足的。一旦能够构建出优秀的世界模型，就能帮助我们找到更好的决策路径。我认为这条路线非常重要。尽管现在大家的注意力都被大模型技术所吸引，都在关注如何扩展（scaling），但我们还是希望模型能变得更智能，不必消耗太多资源就能解决问题。

安波：感谢俞老师的分享。今晚的讨论让我们触及了许多核心问题，包括语言模型的边界、强化学习的边界，以及究竟哪条路线是正确的。这些问题没有完全探讨透彻，现在可能现在很难得到明确的答案，但有一点可以肯定，随着技术的积累和进步，我们正逐步解决一些过去无法解决的问题，我们也欣喜地看到，在工业和许多场景中，这些技术已经被证明是可行和有用的，越来越多的人认识到这些技术的潜力，并且正在积极参与其中。

有观众提出了一个问题，是否可以通过多智能体强化学习与大模型的结合来提升大语言模型处理复杂决策任务的能力，如果可以，可能从哪些角度进行结合？目前看来，这种结合可能主要还是与单个智能体强化学习相关。前几年，多智能体强化学习是一个非常热门的领域，但自从大语言模型兴起后，这一领域的热度明显下降，大家的注意力转移到了大语言模型上。目前，我们还没有看到多智能体强化学习与大模型的结合的成功例子。就像许老师刚才提到的，RL与大模型的结合还有很长的路要走，目前更多的是利用大模型的规划能力和知识。至于用RL微调或训练大模型，这方面的工作似乎也不是特别多。不知道各位老师是否有补充，或者是否有碰到这样的应用案例？郝老师，您是否有想要分享的经验？

郝建业：我想补充一点，过去半年到一年，我们安排了一些学生专门研究多智能体建模技术是否能够提升大模型的技术能力，比如推理能力。我们看到一些比较火的技术，如XOT，都是基于树或图搜索的方法，探索多智能体方法是否能在其中发挥独特作用。目前我们的阶段性发现是，这种作用可能并不大。无论是通过谈判、促进或赋予不同角色的方式，尝试通过组装来提升大模型的通用能力，虽然确实有一些增益，但并不明显，可能还会带来额外的计算成本。我们也有博士生在面向特定领域的特定问题上进行研究，比如基于现有的大模型能力，是否可以通过多智能体建模方法，赋予不同角色处理复杂问题，从各自角色角度进行推理，然后将推理结果进行聚合分析，希望能形成一个更好的结论。这样的思路目前看会有一些增益，但增益并不显著。这肯定不是一个最终结论，我们还在持续探索更好的多智能体建模方法与大模型结合的方式，以提升大模型的技术能力或在特定领域的表现。这仍是一个值得持续探索的方向。

安波：感谢各位今晚的参与。随着今晚的在线网络研讨会接近尾声，我有一种感觉，我们还有很多话题没有深入探讨。这可能因为时间的限制，但随着技术的发展和更多的实际应用，我们会对这些问题有更清晰的认识。

，我想插播一则消息。对于我们今天晚上未能充分讨论的话题，我们诚挚邀请大家在今年12月来新加坡继续我们的探讨。12月，我们将在新加坡举办下一届分布式人工智能会议，这将是一个高水平的交流平台。我们的Keynote Speaker包括著名的Richard Sutton，他很少出国，但今年将会亲临新加坡。此外，我们还有Sergey Levine等其他杰出的演讲者，他是强化学习领域非常活跃的研究者。虽然他没有时间来新加坡，但他会进行线上演讲分享他的见解。我们还邀请了颜水成老师等其他著名科学家，并将举办AI agent day。今晚在座的三位老师届时也将来新加坡来与大家深入交流。今晚的交流就到这里，我相信未来我们还有更多机会深入讨论这些话题。有一点非常明确，那就是强化学习无疑是实现未来人工智能的重要途径之一。我们不讨论它是否唯一，但它绝对是一个重要方向，越来越多的人正在参与其中。在过去几年人工智能取得的重要进展中，包括最近的RHLF，我们都看到了强化学习的贡献。

今晚的网络分享会到此结束。期待未来有机会再次与各位交流。感谢各位的参与，也感谢三位老师的分享，以及AI科技评论和雷峰网的组织和支持。谢谢大家。