查看: 2764|回复: 2

[资料] 《强化学习在阿里的技术演进与业务创新》

[复制链接]

该用户从未签到

发表于 2020-5-15 14:04:13 | 显示全部楼层 |阅读模式
分享到:
当前的机器学习算法⼤致可以分为有监督的学习、⽆监督的学习和强化学习(Reinforcement Learning)等。强化学习和其他学习⽅法不同之处在于强化学习是智能系统从环境到⾏为映射的学习,以使奖励信号函数值最⼤。如果智能体的某个⾏为策略导致环境正的奖赏,那么智能体以后产⽣这个⾏为策略的趋势便会加强。强化学习是最接近于⾃然界动物学习的本质的⼀种学习范式。然⽽强化学习从提出到现在,也差不多有半个世纪左右,它的应⽤场景仍很有限,规模⼤⼀点的问题就会出现维数爆炸,难于计算,所以往往看到的例⼦都是相对简化的场景。
未来深度强化学习的发展必定是理论探索和应⽤实践的双链路持续深⼊。希望这本电⼦书能抛砖引⽟,给⼯业界和学术界带来⼀些输⼊,共同推进深度强化学习的更⼤发展。


游客,如果您要查看本帖隐藏内容请回复

回复

使用道具 举报

您需要登录后才可以回帖 注册/登录

本版积分规则

关闭

站长推荐上一条 /4 下一条

手机版|小黑屋|与非网

GMT+8, 2024-11-18 18:29 , Processed in 0.135624 second(s), 20 queries , MemCache On.

ICP经营许可证 苏B2-20140176  苏ICP备14012660号-2   苏州灵动帧格网络科技有限公司 版权所有.

苏公网安备 32059002001037号

Powered by Discuz! X3.4

Copyright © 2001-2024, Tencent Cloud.