机器学习Web应用 - (EPUB全文下载)
文件大小:0.28 mb。
文件格式:epub 格式。
书籍内容:
机器学习Web应用
第1章 Python机器学习实践入门
第2章 无监督机器学习
第3章 有监督机器学习
第4章 Web挖掘技术
第5章 推荐系统
第6章 开始Django之旅
第7章 电影推荐系统Web应用
第8章 影评情感分析应用
欢迎来到异步社区!
第1章 Python机器学习实践入门
在技术行业,分析和挖掘商业数据的技能正变得越来越重要。公司若有线上业务,可开发利用线上产生的数据,以改进自身业务,或将数据出售给其他公司。重组或分析这些可能具有商业价值的海量信息,只有掌握专业知识的数据科学(或数据挖掘)专业人士才能做得到。数据科学采用机器学习技术将数据转化为模型,以便预测业务领域高度重视的特定实体的行为。这些算法和技术在当今以技术为主导的业务领域是必不可少的。本书讲解这些算法和技术,并介绍如何将其部署到真实的商业环境。你将学到最常用的机器学习技术,并有机会在一系列旨在提高商业智能的练习和应用中使用它们。从本书学到的技能,可用于实际工作。为了充分掌握书中所讨论的各个主题,我们希望你已熟悉Python编程语言、线性代数和统计方法。
网上有很多关于这些主题的教程和课程,但我们建议你阅读Python官方文档(https://docs.python.org/),阅读A. Bluman的Elementary Statistics以及由G. Casella和R. L. Berger合著的Statistical Inference,理解主要的统计概念和方法。学习线性代数,可阅读G. Strang所写的Linear Algebra and Its Applications。
本章作为入门章节,目的是让你熟悉Python机器学习的专业人士所使用的更为高级的库和工具,比如NumPy、pandas和matplotlib,帮你掌握必要技术知识,以便实现后续章节的各种技术。讲解本书所用库之前,我们先来阐明机器学习领域的主要概念,并通过一个实例,展示在真实场景中机器学习算法如何给出有用的预测信息。
1.1 机器学习常用概念
本书讨论最常用的机器学习算法,并在练习中加以运用,从而使你熟悉它们。为了解释这些算法,帮你理解本书内容,我们先大体看下几个常用概念,后面会详细介绍。
首先,若要为机器学习下定义,一个较为贴切的定义是,机器学习是计算机科学的一个分支,从模式识别、人工智能和计算学习理论发展而来。我们也可以将机器学习看作是数据挖掘工具,侧重于用数据分析方法理解给定的数据。该学科的目的是,开发能够从先前观测的数据,通过可调整的参数(通常为由双精度数值组成的数组)进行学习的程序,为了改善预测结果,将参数设计为可自动调整的。计算机用这种方式可预测某种行为,概括(generalize)数据的内在结构,而不只是像常见的数据库系统那样对数值进行排序(或检索)。因此,机器学习跟计算统计[1]相关,也是尝试根据先前数据预测某种行为。机器学习方法常见的行业应用有垃圾邮件过滤器、搜索引擎、光学字符识别(OCR)和计算机视觉。既已给出该学科的定义,我们接下来更详细地介绍每种机器学习问题所用术语。
任何学习问题都始于一个包含n个样本个体的数据集,未知数据的特性(properties)根据数据集来预测。每个个体通常包含一个以上的数值,因此它是一个向量。向量的组成元素[2]叫作特征(feature)。例如,根据二手车的制造时间、颜色和能耗等车况信息预测其价格。二手车数据集中,每辆车i表示成一个特征向量x(i),对应i这辆车的颜色、能耗等车况信息。每辆车i还有一个与之对应的目标(或标签)变量y(i),即二手车的价格。一个训练样例(training example)由一对(x(i), y(i))组成。由N个数据点组成、用于学习的整个集合叫作训练集{(x(i), y(i)); i=1,…,N}。符号x表示特征(输入)值空间,y为目标(输出)值空间。为解决问题选用的机器学习算法用数学模型来描述,模型包含一些参数,需在训练集上调试。训练完成后,模型的预测性能用另外两个数据集来评估:验证集和训练集。验证集用来从多个模型中选择能给出最佳结果的那个,测试集通常用来决定所选用模型的实际准确率(precision)[3]。通常,数据集的50%划作训练集,验证集和测试集则各使用25%的数据。
学习问题可分为两大类(本书对这两类均有大量介绍)。
无监督学习:给定的训练集只有作为输入的特征向量x,而未给出任何相对应的标签。该类学习的目标通常为,用聚类算法找出数据中的相似样例,或将数据从高维空间映射(project)到维数更少的空间(盲信号分离算法,比如主成分分析PCA)。因为每个训练样例通常没有目标值,所以无法直接用训练数据评估模型的错误率;这就需要使用其他方法,评估簇内元素的相似度以及簇间元素的差异程度。这是无监督和有监督学习的一个主要不同点。
有监督学习[4]:给定训练集的每个个体是一对作为输入的特征向量和标签。该类学习的任务是推断各个参数,预测测试数据的目标值。这些问题可进一步分为:
分类:数据的目标值属于两个或以上类别,分类的目标是学习如何预测训练集中未标记的数据的类别。分类是一种离散型(与之对应的是连续型)有监督学习方法,标签所代表的类别有限。手写体数字识别是分类问题的实际应用,其目标是将每个特征向量匹配到一组数量有限的离散型类别中的某个类别。
回归:标签为连续型变量。例如,根据孩子的年龄和体重预测身高就是一个回归问题。
本书第2章集中介绍无监督学习方法,第3章讨论最常用的有监督学习算法。第4章着手讲解Web挖掘技术,也可将其看作有监督和无监督方法。第5章讲解推荐系统,属于有监督学习范畴。第6章介绍Django Web框架。第7章详细介绍推荐系统(用到Django框架和第5章相关知识)的实现。我们以一个Django Web挖掘应用实例结束本书,实现该应用需使用从第4章学到的一些技术。学完本书,你应该能够理解不同的机器学习方法,并有能力将其部署到用Django实现 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 机器学习Web应用 - (EPUB全文下载)