深度强化学习_深度强化学习资讯

短短不到一年内，边塞科技、星动纪元、星海图和千寻智能接连成立，跻身国内明星创企之列；大洋彼岸，Covariant 和 Anyware Robotics 也正在湾区闪耀。六家具身智能公司，八位 90 后创始人，他们都成长于深度强化学习的摇篮。作为最早一批开启新范式的人，他们探索 AI 和 Robotics 的故事要从踏入伯克利校园说起。

雷锋网

758

11/05 10:40

AI 机器人

如果强化学习是问题，大模型是否是「答案」？

“强化学习让大模型具有了思考能力，大模型为强化学习提供了更开阔的思路。” 在当今大模型推动的新一波人工智能的快速发展浪潮中，大模型和强化学习技术的结合成为研究和产业界的焦点。尤其最近OpenAI最新模型o1的发布，强化学习成为o1的灵魂，更是印证了强化学习的潜力。大模型凭借其强大的数据处理能力，为强化学习提供了丰富的知识。这种结合不仅极大地扩展了人工智能在处理复杂问题上的能力，也为强化学习带来了更深层次的洞察力和更高效的决策过程。

雷锋网

2196

10/04 10:25

大模型 AI大模型

白话机器学习-第五章-强化学习

什么是强化学习？在机器学习的大家庭里，强化学习（RL）是那个总是在玩“打怪升级”游戏的孩子。这个孩子不断尝试各种策略，寻找最优的游戏路线，在失败中学习，在成功中积累经验，最终成为一名“游戏高手”。在现实世界中，强化学习算法通过与环境的交互，逐渐优化策略，以最大化其长期收益。这种学习方式有点像训练一只小狗，经过不断的尝试和奖励，小狗学会了坐下、握手、甚至是跳圈。

写代码的中年人

1451

09/05 08:23

机器学习深度强化学习

一文了解【行为克隆 (Behavior Cloning)】

本文介绍模仿学习中最简单和基础的行为克隆(Behavior Cloning)，并总结它与强化学习的区别与结合。

全栈O-Jay

3458

05/16 10:50

深度强化学习

一文了解【完全合作关系】下的【多智能体强化学习】

处于完全合作关系的多智能体的利益一致，获得的奖励相同，有共同的目标。比如多个工业机器人协同装配汽车，他们的目标是相同的，都希望把汽车装好。在多智能体系统中，一个智能体未必能观测到全局状态 S。设第 i 号智能体有一个局部观测，记作 Oi，它是 S 的一部分。不妨假设所有的局部观测的总和构成全局状态：

全栈O-Jay

1733

05/16 10:40

深度学习深度强化学习

基于DQN和TensorFlow的LunarLander实现（全代码）

使用深度Q网络（Deep Q-Network, DQN）来训练一个在openai-gym的LunarLander-v2环境中的强化学习agent，让小火箭成功着陆。下面代码直接扔到jupyter notebook或CoLab上就能跑起来。

全栈O-Jay

2819

01/30 13:52

深度学习 Python

端到端大模型来袭，自动驾驶的最优解？

最近，人工智能领域最火的莫过于大模型了。由美国初创企业OpenAI开发的聊天应用ChatGPT引爆市场，生成式AI成为科技市场热点，ChatGPT背后是深度学习大模型，其理解和生成文字的能力超过以往AI产品。全球主要云计算公司例如亚马逊等都加入其中，争夺算力、开发和销售大模型，云计算市场迎来新一轮竞争热潮，覆盖AI计算所需的算力、算法、数据各层面。

智车科技

2410

2023/07/07

自动驾驶大模型

什么是BPTEOS？它通常应用于哪些领域

BPTEOS（Back Propagation Through Time with Evolving Objectives and Strategies）是一种强化学习（Reinforcement Learning）算法，结合了时间反向传播和动态目标与策略的演进。该算法通过不断优化目标和策略来实现智能体在动态环境中的学习和决策。

eefocus_3901714

1171

08/16 11:52

深度强化学习