机器学习:从公理到算法 - (EPUB全文下载)

文件大小:0.25 mb。
文件格式:epub 格式。
书籍内容:

机器学习:从公理到算法
第1章 引言
第2章 归类理论
第3章 密度估计
第4章 回归
第5章 单类数据降维
第6章 聚类理论
第7章 聚类算法
第8章 分类理论
第9章 基于单类的分类算法:神经网络
第10章 K近邻分类模型
第11章 线性分类模型
第12章 对数线性分类模型
第13章 贝叶斯决策
第14章 决策树
第15章 多类数据降维
第16章 多类数据升维:核方法
第17章 多源数据学习
后记
索引
第1章 引言
好好学习,天天向上。
——毛泽东,1951年题词
大数据时代,人类收集、存储、传输、管理数据的能力日益提高,各行各业已经积累了大量的数据资源,如著名的Nature杂志于2008年9月出版了一期大数据专刊[1],列举了生物信息、交通运输、金融、互联网等领域的大数据应用。如何有效分析数据并得到有用信息甚至知识成为人们关注的焦点。人们寄希望于智能数据分析来完成该项任务。机器学习是智能数据分析技术的核心理论。Science杂志于2015年7月组织了一个人工智能专题[2],其中有关机器学习的内容依然占据了重要的部分。本章将讨论机器学习的基本目的、基本框架、思想发展以及未来走向。
1.1 机器学习的目的:从数据到知识
人类最重要的一项能力是能够从过去的经验中学习,并形成知识。千百年来,人类不断从学习中积累知识,为人类文明打下了坚实的基础。“学习”是人与生俱来的基本能力,是人类智能(human intelligence)形成的必要条件。自2000年以来,随着互联网技术的普及,积累的数据已经超过了人类个体处理的极限,以往人类自己亲自处理数据形成知识的模式已经到了必须改变的地步,人类必须借助于计算机才能处理大数据,更直白地说,我们希望计算机可以像人一样从数据中学到知识。
由此,如何利用计算机从大数据中学到知识成为人工智能研究的热点。“机器学习”(machine learning)是从数据中提取知识的关键技术。其初衷是让计算机具备与人类相似的学习能力。迄今为止,人们尚不知道如何使计算机具有与人类相媲美的学习能力。然而,每年都有大量新的针对特定任务的机器学习算法涌现,帮助人们发现完成这些特定任务的新知识(有时也许仅仅是隐性新知识)。对机器学习的研究不仅已经为人们提供了许多前所未有的应用服务(如信息搜索、机器翻译、语音识别、无人驾驶等),改善了人们的生活,而且也帮助人们开辟了许多新的学科领域,如计算金融学、计算广告学、计算生物学、计算社会学、计算历史学等,为人类理解这个世界提供了新的工具和视角。可以想见,作为从数据中提取知识的工具,机器学习在未来还会帮助人们进一步开拓新的应用和新的学科。
机器学习存在很多不同的定义,常用的有三个。第一个常用的机器学习定义是“计算机系统能够利用经验提高自身的性能”,更加形式化的论述可见文献[3]。机器学习名著《统计学习理论的本质》给出了机器学习的第二个常见定义,“学习就是一个基于经验数据的函数估计问题”[4]。在《统计学习基础》这本书的序言里给出了第三个常见的机器学习定义,“提取重要模式、趋势,并理解数据,即从数据中学习”[11]。这三个常见定义各有侧重:第一个聚焦学习效果,第二个的亮点是给出了可操作的学习定义,第三个突出了学习的可理解性。但其共同点是强调了经验或者数据的重要性,即学习需要经验或者数据。注意到提高自身性能需要知识,函数、模式、趋势显然自身是知识,因此,这三个常见的定义也都强调了从经验中提取知识,这意味着这三种定义都认可机器学习提供了从数据中提取知识的方法。众所周知,大数据时代的特点是“信息泛滥成灾但知识依然匮乏”。可以预料,能自动从数据中学到知识的机器学习必将在大数据时代扮演重要的角色。
那么如何构建一个机器学习任务的基本框架呢?
1.2 机器学习的基本框架
考虑到我们希望用机器学习来代替人学习知识,因此,在研究机器学习以前,先回顾一下人类如何学习知识是有益的。对于人来说,要完成一个具体的学习任务,需要学习材料、学习方法以及学习效果评估方法。如学习英语,需要英语课本、英语磁带或者录音等学习材料,明确学习方法是背诵和练习,告知学习效果评估方法是英语评测考试。检测一个人英语学得好不好,就看其利用学习方法从学习材料得到的英语知识是否能通过评测考试。机器学习要完成一个学习任务,也需要解决这三方面的问题,并通过预定的测试。
对应于人类使用的学习材料,机器学习完成一个学习任务需要的学习材料,一般用描述对象的数据集合来表示,有时也用经验来表示。对应于人类完成学习任务的学习方法,机器学习完成一个学习任务需要的学习方法,一般用学习算法来表示。对应于人类完成一个学习任务的学习效果现场评估方法(如老师需要时时观察课堂气氛和学生的注意力情况),机器学习完成一个学习任务也需要对学习效果进行即时评估,一般用学习判据来表示。对于机器学习来说,用来描述数据对象的数据集合对最终学习任务的完成状况有重要影响,用来指导学习算法设计的学习判据有时也用来评估学习算法的效果,但一般机器学习算法性能的标准评估会不同于学习判据,正如人学习的学习效果即时评估方式与最终的评估方式一般也不同。对于机器学习来说,通常也会有特定的测试指标,如正确率,学习速度等。
可以用一个具体的机器学习任务来说明。给定一个手写体数字字符数据集合,希望机器能够通过这些给定的手写体数字字符,学到正确识别手写数字字符的知识。显然,学习材料是手写体数字字符数据集,学习算法是字符识别算法,学习判据可以是识别正确率,也可以是其他有助于提高识别正确率的指标。
数据集合、学习判据、学习算法对于任何学习任务都是需要讨论的对象。数据集合的不同表示,影响学习判据与学习算法的设计。学习判据与学习算法的设计密切相关,下面分别讨论。
1.2.1 数据集合与对象特性表示
对于一个学习任务来说,我们希望学到特定对象集合的特定知识。无论何种学习任务,学到的知识通常是与这个世界上的对象相关。通过学到的知识,可以对这个世界上的对象有更好的描述,甚至可以预测其具有某种性质、关系 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 机器学习:从公理到算法 - (EPUB全文下载)