白话强化学习与PyTorch - (EPUB全文下载)

文件大小:0.36 mb。
文件格式:epub 格式。
书籍内容:

白话强化学习与PyTorch
第1章 强化学习是什么
第2章 强化学习的脉络
第3章 动态规划
第4章 蒙特卡罗法
第5章 时间差分
现代篇
第6章 深度学习
第7章 Gym——不要钱的试验场
第8章 DQN算法族
第9章 PG算法族
第10章 A3C
第11章 UNREAL
扩展篇
第12章 NEAT
第13章 SerpentAI
第14章 案例详解
第15章 扩展讨论
后记
附录A
参考文献
第1章 强化学习是什么
强化学习(Reinforcement Learning)是一个独立的机器学习研究领域。为了让大家有比较直观的感受,本书将对强化学习和机器学习的一些研究领域进行对比讨论。请原谅我的啰唆,因为有些时候,只有铺垫足够多,路走起来才足够稳。
先说说监督学习(Supervised Learning)。监督学习是一个比较传统的机器学习研究领域。简单概括,监督学习主要希望研究映射关系
.
这其实是一个我们在中学时就见过的函数,唯一陌生的是——它是待定系数。具体来说,有一个确定了系数的函数和一个确定的,得到一个确定的是顺理成章的事情。例如,有,给我一个的值,让我求出对应的值,当然很容易——如果,那么,这里的就是前面的系数和后面的常数项。
如果我们实际观测到的值只有、,但不知道的值,希望通过一系列科学的办法“反向”推导出的值,那么,这就属于机器学习的研究范畴了。在这个例子中,可以在给定足够数量的样本的情况下,也就是说,在有足够的和对应的的值的时候,尝试用线性回归的方法求出的值。将已知输入变量和输出变量的值作为参数,逐步求出待定系数的过程,就是训练(Training)过程。当通过这样一个过程学习到应该为什么值之后,如果再有出现,就可以通过函数计算出的值。这就是监督学习的实际工作方式,这个例子就是典型的监督学习中的线性回归(Linear Regression)问题。这个过程的具体实现方法,将在6.3节中详细介绍。
再说说非监督学习(Unsupervised Learning)。非监督学习也是一个比较传统的机器学习领域。在机器学习入门阶段使用最多的算法K-Means,就是一个典型的非监督学习算法。例如,在一个空间中,有很多的空间点向量(Vector)[1],这些点在这个空间中的分布很可能是不均匀的。是否可以通过一个算法来求出它们各自的分布究竟聚集在哪些空间区域附近?是否可以找出这些空间区域的中心点的具体位置?答案是:可以。在这个过程中,我们只需要告诉计算机我们要把这些空间中的点分成几个聚类(Cluster),甚至不用告诉计算机我们要把这些点具体分成哪几个聚类,计算机就能对这些空间点向量进行聚类的划分。
如图1-1所示,空间中不均匀地分布着一些点,通过K-Means算法可以计算出它们分别聚集在三个点周围(或者说“聚成了三堆”)。
图1-1 K-Means算法示意
我们可以研究这三个聚类中的点都有哪些共性,也可以研究哪些点没有在这些聚类中或远离这些聚类中心。这样的应用场景在现实生活中是很多的。例如,能不能把用户的年龄、收入、贷款金额等数据绘制成这样的图像,通过聚类的方式找出用户人群的分布,然后针对不同的人群尝试设计相应的产品或业务,以分别满足他们的需要?这可比自己抱着脑袋绞尽脑汁冥思苦想要科学得多。
当然,我们还可以通过这种方法来研究那些不属于任何类的、飘在所有类之外的“离群点”。离群点的研究也是有价值的,因为它们太特殊了。它们为什么特殊?是数据收集系统本身的问题导致的特殊性,还是这个点本来就是一个“异类”(例如诈骗事件的特征点描述)?这些都是可以研究的思路。
显然,这个过程与研究的过程(需要知道和的具体值,才能完成整个训练过程)不一样。在这个例子中,我们只需要知道是什么就够了——就是空间中的一个个点。
还有很多机器学习的研究领域,例如迁移学习(Transfer Learning)、生成对抗网络(Generative Adversarial Networks,GAN)等以不同建模方式或思考角度来解决问题的方法论。在这里,我之所以不愿意称它们为“算法”,而愿意称它们为“模型体系”或“方法论”,是因为它们确实已经各自拥有了一套较为完整的处理数据、建模、训练、调优的套路。它们中也包括本书的主角——强化学习。
1.1 题设
强化学习是为了解决哪些问题而设计的?在人工智能领域,我们其实一直希望机器人足够智能。这里的“智能”是指让计算机拥有比较好的推理、判断、分析能力,并基于这些能力自动进化,最终胜任人类交给它们的任何任务——最理想的状态,就像阿诺德·施瓦辛格[2]和克里斯塔娜·洛肯[3]主演的《终结者》(The Terminator)系列电影里的未来机器人那样。可以说,和我同龄的“80后”中的很多人都是在这类科幻作品的启蒙下,对人工智能产生了懵懂的感觉。《终结者》系列电影的第一部是1984年在美国上映的,看这部电影时我已经上大学了,大概在2002年。在那时的我看来,电影中的机器人简直无所不能——全天候工作、刀枪不入、变形自如……在那个时候,我脑子里对人工智能的概念是:像“终结者”这样的高智能人形机器人,应该是未来某个时刻的研究目标,也八成是大学或者实验室里正在研究而且没准儿哪天真的能研究出来的东西。说起来,那时我的想法还真是天真。
我再次看到与机器人相关的电影,已经是2008年了。那也是一部极为成功的作品——《机器人总动员》(WALL-E),在豆瓣上有9.3分的高分评价。当时,那部电影让我热泪盈眶。
随着年龄的增长,虽然我不会再像第一次看《终结者》时那么“激动”了,但仍然免不了偷偷地想:如果真的能造出这样的机器人,那就太好了。同时,我也开始有意识地寻找相关资料。我真的开始好奇:在清华、哈佛这样的大学里,人工智能专业的学生都在学什么?离实现这个目标还有多远?是不是有朝一日我们也能造出这样的机器人?
回过头来看,不得不承认,那时自己还是太年轻。其实,在有了多年的工作经历之后,我知道,虽然这两部科幻电影里面的机器人很难制造出来,但它们 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 白话强化学习与PyTorch - (EPUB全文下载)