机器学习:Python实践 - (EPUB全文下载)
文件大小:0.76 mb。
文件格式:epub 格式。
书籍内容:
机器学习:Python实践
第一部分 初始
2 Python机器学习的生态圈
3 第一个机器学习项目
4 Python和SciPy速成
第二部分 数据理解
6 数据理解
7 数据可视化
第三部分 数据准备
9 数据特征选定
第四部分 选择模型
11 算法评估矩阵
12 审查分类算法
13 审查回归算法
14 算法比较
15 自动流程
第五部分 优化模型
17 算法调参
第六部分 结果部署
第七部分 项目实践
20 回归项目实例
21 二分类实例
22 文本分类实例
附录A
反侵权盗版声明
第一部分 初始
像一个优秀的工程师一样使用机器学习,而不要像一个机器学习专家一样使用机器学习方法。
——Google
1 初识机器学习
本书主要介绍机器学习在实践中的应用,介绍利用Python的生态环境,使用机器学习的算法来解决工程实践中的问题,而不是介绍算法本身。本书会通过例子一步一步地引导大家使用机器学习来处理和分类与回归模型相关的问题。
1.1 学习机器学习的误区
下面三点是利用Python进行机器学习的误区,应该尽量避免:
· 必须非常熟悉Python的语法和擅长Python的编程。
· 非常深入地学习和理解在scikit-learn中使用的机器学习的理论和算法。
· 避免或者很少参与完成项目,除机器学习之外的部分。
我相信这些方式对一部分人可能会非常有效,但是这会降低掌握机器学习技能的速度和要达到通过机器学习来解决问题的目标。这也会浪费大量时间单独学习机器学习算法,但却不知如何利用机器学习来解决现实中遇到的问题。
1.2 什么是机器学习
机器学习(Machine Learning,ML)是一门多领域的交叉学科,涉及概率论、统计学、线性代数、算法等多门学科。它专门研究计算机如何模拟和学习人的行为,以获取新的知识或技能,重新组织已有的知识结构使之不断完善自身的性能。
机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
机器学习的算法分为两大类:监督学习和无监督学习。
监督学习即在机器学习过程中提供对错指示。一般是在数据组中包含最终结果(0,1),通过算法让机器自己减少误差。这一类学习主要应用于分类和预测(Regression&Classify)。监督学习从给定的训练数据集中学习出一个目标函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,也可以说包括特征和目标,训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
非监督学习又称归纳性学习(Clustering),利用 K 方式(KMean)建立中心(Centriole),通过循环和递减运算(Iteration&Descent)来减小误差,达到分类的目的。
1.3 Python中的机器学习
本书主要关注监督学习中的分类与回归问题处理的预测模型,这是在工业中应用非常广泛的分类,也是 scikit-learn擅长的一个领域。与统计学不同,机器学习的预测模型是用来理解数据、解决问题的;聚焦于如何创建一个更加精准的模型,而不是用来解释模型是如何设置的。与大部分机器学习的领域不同的是,预测模型是使用表格格式的数据作为模型的输入的,因此数据的采集和整理是很重要的工作。
本书会围绕以下三部分来引导大家学习机器学习。
· 课程:学习在项目中如何将机器学习的任务和Python有机地结合在一起,以便实现每一个机器学习问题的最佳实践。
· 项目:通过实例来理解学到的预测模型的知识。
· 方法:学到一系列方法,只是进行简单的复制粘贴操作就可以启动一个新的机器学习项目。
我们将通过项目来介绍基于 Python 的生态环境如何完成机器学习的相关工作。一旦明白了如何使用 Python 平台来完成机器学习的任务,就可以在不同的项目中重复使用这种方法解决问题。利用机器学习的预测模型来解决问题共有六个基本步骤,如图1-1所示。
图1-1
· 定义问题:研究和提炼问题的特征,以帮助我们更好地理解项目的目标。
· 数据理解:通过描述性统计和可视化来分析现有的数据。
· 数据准备:对数据进行格式化,以便于构建一个预测模型。
· 评估算法:通过一定的方法分离一部分数据,用来评估算法模型,并选取一部分代表数据进行分析,以改善模型。
· 优化模型:通过调参和集成算法提升预测结果的准确度。
· 结果部署:完成模型,并执行模型来预测结果和展示。
1.4 学习机器学习的原则
学习机器学习是一段旅程。需要知道自己具备的技能、目前所掌握的知识,以及明确要达到的目标。要实现自己的目标需要付出时间和辛勤的工作,但是在目标的实现过程中,有很多工具可以帮助你快速达成目标。
创建半正式的工作产品。以博客文章、技术报告和代码存储的形式记下学习和发现的内容,快速地为自己和他人提供一系列可以展示的技能、知识及反思。
实时学习。不能仅在需要的时候才学习复杂的主题,例如,应该实时学习足够的概率和线性代数的指示来帮助理解正在处理的算法。在开始进入机器学习领域之前,不需要花费太多的时间来专门学习统计和数学方面的知识,而是要在平时进行实时学习,积累知识。
利用现有的Skills。如果可以编码,那么通过实现算法来理解它们,而不是研究数学理论。使用自己熟悉的编程语言,让自己专注于正在学习的一件事情上,不要同时学习一种新的语言、工具或类库,这样会使学习过程复杂化。
掌握是理想。掌握机器学习需要持续不断的学习。也许你永远不可能实现掌握机器学习的目标,只能持续不断地学习和改进所掌握的知识。
1.5 学习机器学习的技巧
下面三个技巧可以有效地帮助你快速提高学习机器学习的能力。
· 启动一个可以在一个小时内完成的小项目。
· 通过每周完成一个项目来保持你的学习势头,并建立积累自己的项目工作区。
· 在微博、微信、Github等社交工具上分享自己的成果,或者随时随地 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 机器学习:Python实践 - (EPUB全文下载)