Spark机器学习 - (EPUB全文下载)
文件大小:2.2 mb。
文件格式:epub 格式。
书籍内容:
版权信息
书名:Spark机器学习
作者:Nick Pentreath
译者:蔡立宇 黄章帅 周济民
ISBN:978-7-115-39983-0
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
图灵社区会员 张海川(zhanghaichuan@ptpress.com.cn) 专享 尊重版权
版权声明
前言
本书内容
预备知识
本书目标
排版约定
读者反馈
客户支持
下载示例代码
勘误表
侵权行为
问题
致谢
第1章 Spark的环境搭建与运行
1.1 Spark的本地安装与配置
1.2 Spark集群
1.3 Spark编程模型
1.3.1 SparkContext类与SparkConf类
1.3.2 Spark shell
1.3.3 弹性分布式数据集
1.3.4 广播变量和累加器
1.4 Spark Scala编程入门
1.5 Spark Java编程入门
1.6 Spark Python编程入门
1.7 在Amazon EC2上运行Spark
启动一个EC2 Spark集群
1.8 小结
第2章 设计机器学习系统
2.1 MovieStream介绍
2.2 机器学习系统商业用例
2.2.1 个性化
2.2.2 目标营销和客户细分
2.2.3 预测建模与分析
2.3 机器学习模型的种类
2.4 数据驱动的机器学习系统的组成
2.4.1 数据获取与存储
2.4.2 数据清理与转换
2.4.3 模型训练与测试回路
2.4.4 模型部署与整合
2.4.5 模型监控与反馈
2.4.6 批处理或实时方案的选择
2.5 机器学习系统架构
动手练习
2.6 小结
第3章 Spark上数据的获取、处理与准备
3.1 获取公开数据集
MovieLens 100k数据集
3.2 探索与可视化数据
3.2.1 探索用户数据
3.2.2 探索电影数据
3.2.3 探索评级数据
3.3 处理与转换数据
非规整数据和缺失数据的填充
3.4 从数据中提取有用特征
3.4.1 数值特征
3.4.2 类别特征
3.4.3 派生特征
3.4.4 文本特征
3.4.5 正则化特征
3.4.6 用软件包提取特征
3.5 小结
第4章 构建基于Spark的推荐引擎
4.1 推荐模型的分类
4.1.1 基于内容的过滤
4.1.2 协同过滤
4.1.3 矩阵分解
4.2 提取有效特征
从MovieLens 100k数据集提取特征
4.3 训练推荐模型
4.3.1 使用MovieLens 100k数据集训练模型
4.3.2 使用隐式反馈数据训练模型
4.4 使用推荐模型
4.4.1 用户推荐
4.4.2 物品推荐
4.5 推荐模型效果的评估
4.5.1 均方差
4.5.2 K 值平均准确率
4.5.3 使用MLlib内置的评估函数
4.6 小结
第5章 Spark构建分类模型
5.1 分类模型的种类
5.1.1 线性模型
5.1.2 朴素贝叶斯模型
5.1.3 决策树
5.2 从数据中抽取合适的特征
从Kaggle/StumbleUpon evergreen分类数据集中抽取特征
5.3 训练分类模型
在Kaggle/StumbleUpon evergreen的分类数据集中训练分类模型
5.4 使用分类模型
在Kaggle/StumbleUpon evergreen数据集上进行预测
5.5 评估分类模型的性能
5.5.1 预测的正确率和错误率
5.5.2 准确率和召回率
5.5.3 ROC曲线和AUC
5.6 改进模型性能以及参数调优
5.6.1 特征标准化
5.6.2 其他特征
5.6.3 使用正确的数据格式
5.6.4 模型参数调优
5.7 小结
第6章 Spark构建回归模型
6.1 回归模型的种类
6.1.1 最小二乘回归
6.1.2 决策树回归
6.2 从数据中抽取合适的特征
从bike sharing数据集抽取特征
6.3 回归模型的训练和应用
在bike sharing数据上训练回归模型
6.4 评估回归模型的性能
6.4.1 均方误差和均方根误差
6.4.2 平均绝对误差
6.4.3 均方根对数误差
6.4.4 R-平方系数
6.4.5 计算不同度量下的性能
6.5 改进模型性能和参数调优
6.5.1 变换目标变量
6.5.2 模型参数调优
6.6 小结
第7章 Spark构建聚类模型
7.1 聚类模型的类型
7.1.1 K-均值聚类
7.1.2 混合模型
7.1.3 层次聚类
7.2 从数据中提取正确的特征
从MovieLens数据集提取特征
7.3 训练聚类模型
用MovieLens数据集训练聚类模型
7.4 使用聚类模型进行预测
用MovieLens数据集解释类别预测
7.5 评估聚类模型的性能
7.5.1 内部评价指标
7.5.2 外部评价指标
7.5.3 在MovieLens数据集计算性能
7.6 聚类模型参数调优
通过交叉验证选择K
7.7 小结
第8章 Spark应用于数据降维
8.1 降维方法的种类
8.1.1 主成分分析
8.1.2 奇异值分解
8.1.3 和矩阵分解的关系
8.1.4 聚类作为降维的方法
8.2 从数据中抽取合适的特征
从LFW数据集中提取特征
8.3 训练降维模型
在LFW数据集上运行PCA
8.4 使用降维模型
8.4.1 在LFW数据集上使用PCA投影数据
8.4.2 PCA和SVD模型的关系
8.5 评价降维模型
在LFW数据集上估计SVD的 k 值
8.6 小结
第9章 Spark高级文本处理技术
9.1 处理文本数据有什么特别之处
9.2 从数据中抽取合适的特征
9.2.1 短语加权表示
9.2.2 特征哈希
9.2.3 从20新闻组 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Spark机器学习 - (EPUB全文下载)