深入浅出强化学习:原理入门 - (EPUB全文下载)

文件大小:0.26 mb。
文件格式:epub 格式。
书籍内容:

深入浅出强化学习:原理入门
1 绪论
第一篇 强化学习基础
2 马尔科夫决策过程
3 基于模型的动态规划方法
第二篇 基于值函数的强化学习方法
4 基于蒙特卡罗的强化学习方法
5 基于时间差分的强化学习方法
6 基于值函数逼近的强化学习方法
第三篇 基于直接策略搜索的强化学习方法
7 基于策略梯度的强化学习方法
8 基于置信域策略优化的强化学习方法
9 基于确定性策略搜索的强化学习方法
10 基于引导策略搜索的强化学习方法
第四篇 强化学习研究及前沿
11 逆向强化学习
12 组合策略梯度和值函数方法
13 值迭代网络
14 基于模型的强化学习方法:PILCO及其扩展
后记
参考文献
1 绪论
1.1 这是一本什么书
这是一本人人都可以读懂的书。唐代大诗人白居易写诗定稿的标准是“老妪能解”,也就是说只有连市井中的老妇人都能听懂的诗才是好诗。本书力求做到这一点。不过,真正做到“老妪能解”的程度还是有困难的。因为强化学习是集数学、工程学、计算机科学、心理学、神经科学于一身的交叉学科。力图将这门“深奥”的学科讲明白,是写作本书的目的。
本书讲的是强化学习算法,什么是强化学习算法呢,它离我们有多远?2016年和2017 年最具影响力的 AlphaGo 大胜世界围棋冠军李世石和柯洁事件,其核心算法就用到了强化学习算法。相信很多人想了解或者转行研究强化学习算法或多或少都跟这两场赛事有联系。如今,强化学习继深度学习之后,成为学术界和工业界追捧的热点。从目前的形式看,强化学习正在各行各业开花结果,前途一片大好。然而,强化学习的入门却很难,明明知道它是一座“金山”,可是由于总不能入门,只能望“金山”而兴叹了。另外,市面上关于强化学习的中文书并不多,即便有,翻开几页出现的各种专业术语,一下就把人搞懵了。本来下定决心要啃下这块硬骨头的,可是啃了几天发现,越啃越痛苦,连牙都咯掉了,肉渣还没吃到。本书下决心不给大家吃骨头,只给肉,因此本书与其他教科书有以下几个方面的不同。
第一,本书的语言风格偏口语化。因为本书的写作目的是让大家尽快入门强化学习。众所周知,学一门新的课程,最快的入门方式就是请私人家教进行一对一的训练。然而,由于各种原因,这种方式并非对每个人都现实可行。而本书,正希望通过这种口语化的方式与读者交流,尽量实现一对一的训练效果。读者们可以将这本书想象成自己的私人家教。
第二,本书不会将数学基础作为单独的章节列出来,而是在强化学习算法中用到哪些数学,就在那个章节里介绍。这样,就算是没有多少数学基础的读者也可以学习;而对于那些有数学基础的读者,通过将数学与具体的强化学习算法相结合,可以提升数学的应用能力。
第三,本书的每部分都包括理论讲解,代码讲解和直观解释三项内容。强化学习算法是应用性很强的算法,大部分读者学习强化学习算法的目的是用来解决实际问题的。一边学理论,一边写代码,可以使读者在学习的过程中,同步提升理论研究和解决问题两方面的能力。
第四,本书涵盖的内容相当丰富,几乎会涉及强化学习算法的各个方面。从最基础的强化学习算法到目前最前沿的强化学习算法都会有所涉猎。所以,本书可以说是“完全”教程。当然了,这里所谓的“完全”也只是相对的。因为,强化学习算法当前正处于快速发展中,每个月都会有新的突破。但是,强化学习的基本思想是不会那么快变化的,最新的突破都是基于这些基本的思想而来。所以,读完了本书,你再继续读最新的论文,就不会再有如读天书的感觉了。或者说,读完了本书你就可以参与到构建能改变世界的伟大算法中了。
我们再回到刚才的问题:什么是强化学习算法?
要回答这个问题,必须先回答强化学习可以解决什么问题,强化学习如何解决这些问题。
1.2 强化学习可以解决什么问题
如图1.1所示是强化学习算法的成功案例。其中的A图为典型的非线性二级摆系统。该系统由一个台车(黑体矩形表示)和两个摆(红色摆杆)组成,可控制的输入为台车的左右运动,该系统的目的是让两级摆稳定在竖直位置。两级摆问题是非线性系统的经典问题,在控制系统理论中,解决该问题的基本思路是先对两级摆系统建立精确的动力学模型,然后基于模型和各种非线性的理论设计控制方法。一般来说,这个过程非常复杂,需要深厚的非线性控制理论的知识。而且,在建模的时候需要知道台车和摆的质量,摆的长度等等。基于强化学习的方法则不需要建模也不需要设计控制器,只需要构建一个强化学习算法,让二级摆系统自己去学习就可以了。当学习训练结束后,二级摆系统便可以实现自平衡。图1.1中的B图是训练好的AlphaGo与柯洁对战的第二局棋,C 图则为机器人在仿真环境下自己学会了从摔倒的状态爬起来。这三个例子能很好地说明,强化学习算法在不同的领域能够取得令人惊艳的结果。当然,强化学习除了应用到非线性控制、下棋、机器人等方向,还可以应用到其他领域,如视频游戏、人机对话、无人驾驶、机器翻译、文本序列预测等。
图1.1 强化学习成功案例
例子是举不完的,可以用一句话来说明强化学习所能解决的问题:智能决策问题。更确切地说是序贯决策问题。什么是序贯决策问题呢?就是需要连续不断地做出决策,才能实现最终目标的问题。如图1.1中图A的二级摆问题,它需要在每个状态下都有个智能决策(在这里智能决策是指应该施加给台车什么方向、多大的力),以便使整个系统逐渐收敛到目标点(也就是两个摆竖直的状态)。图B中的AlphaGo则需要根据当前的棋局状态做出该下哪个子的决策,以便赢得比赛。图C中,机器人需要得到当前状态下每个关节的力矩,以便能够站立起来。一句话概括强化学习能解决的问题:序贯决策问题。那么,强化学习是如何解决这个问题的呢?
1.3 强化学习如何解决问题
在回答强化学习如何解决序贯决策问题之前,我们先看看监督学习是如何解决问题的。从解决问题的角度来看,监督学习解决的是智能感知的问题。
我们依然用一个图来表示。如图1.2所示,监督学习最典型的例子是数字手写体识别,当给出一个手写数字时,监督学习需要判别出该数字是多少。也就是说,监督学习需要感知到当前的输入到 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 深入浅出强化学习:原理入门 - (EPUB全文下载)