scikit-learn机器学习(第2版) - (EPUB全文下载)

文件大小:0.25 mb。
文件格式:epub 格式。
书籍内容:

scikit-learn机器学习(第2版)
第1章 机器学习基础
第2章 简单线性回归
第3章 用K-近邻算法分类和回归
第4章 特征提取
第5章 从简单线性回归到多元线性回归
第6章 从线性回归到逻辑回归
第7章 朴素贝叶斯
第8章 非线性分类和决策树回归
第9章 集成方法:从决策树到随机森林
第10章 感知机
第11章 从感知机到支持向量机
第12章 从感知机到人工神经网络
第13章 K-均值算法
第14章 使用主成分分析降维
第1章 机器学习基础
在本章中,我们将回顾机器学习中的基础概念,比较监督学习和无监督学习,讨论训练数据、测试数据和验证数据的用法,并了解机器学习应用。最后,我们将介绍scikit-learn库,并安装后续章节中需要的工具。
1.1 定义机器学习
长久以来,我们的想象力一直被那些能够学习和模仿人类智慧的机器所吸引。尽管具有一般人工智能的机器(比如阿瑟· 克拉克笔下的HAL和艾萨克· 阿西莫夫笔下的Sonny)仍然没有实现,但是能够从经验中获取新知识和新技能的软件正在变得越来越普遍。我们使用这些机器学习程序去寻找自己可能喜欢的新音乐,找到自己真正想在网上购买的鞋子。机器学习程序允许我们对智能手机下达命令,并允许用恒温控制器自动设置温度。机器学习程序可以比人类更好地破译书写凌乱的邮寄地址,并更加警觉地防止信用卡欺诈。从研发新药到估计一个头条新闻的页面访问量,机器学习软件正在成为许多行业的核心部分。机器学习甚至已经侵占了许多长久以来一直被认为只有人类能涉及的领域,例如撰写一篇关于杜克大学篮球队输给了北卡大学篮球队的体育专栏报道。
机器学习是对软件工件的设计和学习,它使用过去的经验去指导未来的决策。机器学习是对从数据中学习的软件的研究。机器学习的基础目标是归纳,或者从一种未知规则的应用例子中归纳出未知规则。机器学习的典型例子是垃圾邮件过滤。通过观察已经被标记为垃圾邮件或非垃圾邮件的电子邮件,垃圾邮件过滤器可以分类新消息。研究人工智能的先锋科学家亚瑟·萨缪尔曾说过机器学习是“给予计算机学习的能力而无须显式地编程的研究”。在20世纪50年代到20世纪60年代之间,萨缪尔开发了多个下棋程序。虽然下棋的规则很简单,但是要战胜技艺高超的对手需要复杂的策略。萨缪尔从来没有显式地编程过这些策略,而是通过几千次比赛的经验,程序学习了复杂的行为以此打败了许多人类对手。
计算机科学家汤姆·米切尔对机器学习给出了一个更加正式的定义:“如果一个程序的性能在‘T’中体现,通过‘P’来衡量,并通过经验‘E’来提升,那么该程序可以被视为针对一些任务类型‘T’和性能衡量‘P’从经验‘E’中进行学习”。例如,假设你有一个图片集合,每一张图片描绘了一只狗或一只猫。任务是将图片分为狗图片类和猫图片类,而程序可以通过观察已经被分类好的图片来学习执行这个任务,同时它可以通过计算分类图片的正确比例来提升性能。
我们将使用米切尔关于机器学习的定义来组织本章内容。首先,我们将讨论经验的类型,包括监督学习和无监督学习。接着,我们将讨论可以用机器学习系统解决的常见任务。最后,我们将讨论能够用于衡量机器学习系统性能的标准。
1.2 从经验中学习
机器学习系统经常被描述为在人类监督或无监督之下从经验中学习。在监督学习问题中,一个程序会通过标记的输入和输出进行学习,并从一个输入预测一个输出。也就是说,程序从“正确答案”的例子中学习。在无监督学习中,一个程序不会从标记数据中学习。相反,它尝试在数据中发现模式。例如,假设你已经收集了描述人身高体重的数据。一个无监督学习的例子是将数据划分到不同的组中。一个程序可能会产出对应到男性和女性,或者儿童和成人的组。现在假设数据也标记了性别。一个监督学习的例子是归纳出一个规则,基于一个人的身高和体重来预测一个人是男性还是女性。我们将在后面的章节中讨论监督学习和无监督学习的算法和例子。
监督学习和无监督学习可以被认为是一个范围的两端。一些类型的问题,被称为半监督学习问题,这些问题同时使用监督学习的数据和无监督学习的数据,位于监督学习和无监督学习之间。强化学习靠近监督学习一端。和无监督学习不同,强化学习程序不会从标记的输出对中进行学习。相反,它从决策中接收反馈,但是错误并不会显式地被更正。例如,一个学习去玩像超级玛丽兄弟这样的横向卷轴游戏的强化学习程序,当完成一个关卡或者达到一个特定分数时,可能会接收到一个奖励,而当失去一次生命时会受到惩罚。然而,这样的监督反馈并不会附带一个特定的决策去指挥角色跑动,躲开栗子怪,或者捡起一朵火焰花。我们将主要关注监督学习和无监督学习,因为这两个类别包含了最常见的机器学习问题。在下一节中,我们将更细致地审阅监督学习和无监督学习。
一个监督学习程序从标记输出的例子中进行学习,这些输出例子应该由对应的输入产出。一个机器学习程序的输出有很多名字,在机器学习中汇集了一些学科,许多学科都会使用自己的术语。在本书中,我们将把输出称为响应变量。响应变量的其他名字包括“依赖变量”“回归变量”“标准变量”“测定变量”“应答变量”“被解释变量”“输出变量”“实验变量”“标签”和“输出变量”。类似的,输入变量也有很多名字。在本书中,我们将输入变量称为特征,它们代表的现象称为解释变量。解释变量的其他名字包括“预测器”“回归器”“控制变量”和“暴露变量”。响应变量和解释变量可以是实数值或离散值。
组成监督学习经验的实例集合称为一个训练集。一个用于衡量程序性能的实例集合称为一个测试集。响应变量可以被看作是由解释变量引发问题的回答,监督学习问题会从一个针对不同问题回答的集合中进行学习。也就是说,监督学习程序会被提供正确的答案,而它需要学习去正确地回答没见过的类似问题。
1.3 机器学习任务
两种最常见的监督机器学习任务是分类和回归。在分类任务中,程序必须学习去从一个或多个特征去预测一个或多个响应变量的离散值。也就是说,程序必须为新观测值预测最可能的分类、类别或者标签。分类的应用包括预测一只股票的价格会上涨或下跌,或 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » scikit-learn机器学习(第2版) - (EPUB全文下载)