Spark机器学习:核心技术与实践 - (EPUB全文下载)
文件大小:0.72 mb。
文件格式:epub 格式。
书籍内容:
Spark机器学习:核心技术与实践
第1章 大规模机器学习和Spark入门
1.1 数据科学
1.2 数据科学家:21世纪最炫酷的职业
1.2.1 数据科学家的一天
1.2.2 大数据处理
1.2.3 分布式环境下的机器学习算法
1.2.4 将数据拆分到多台机器
1.2.5 从Hadoop MapReduce到Spark
1.2.6 什么是Databricks
1.2.7 Spark包含的内容
1.3 H2O.ai简介
1.4 H2O和Spark MLlib的区别
1.5 数据整理
1.6 数据科学:一个迭代过程
1.7 小结
第2章 探索暗物质:希格斯玻色子
2.1 Ⅰ型错误与Ⅱ型错误
2.1.1 寻找希格斯玻色子
2.1.2 LHC和数据的创建
2.1.3 希格斯玻色子背后的理论
2.1.4 测量希格斯玻色子
2.1.5 数据集
2.2 启动Spark与加载数据
2.2.1 标记点向量
2.2.2 创建训练和测试集合
2.2.3 第一个模型:决策树
2.2.4 下一个模型:集合树
2.2.5 最后一个模型:H2O深度学习
2.2.6 构建一个3层DNN
2.3 小结
第3章 多元分类的集成方法
3.1 数据
3.2 模型目标
3.2.1 挑战
3.2.2 机器学习工作流程
3.2.3 使用随机森林建模
3.3 小结
第4章 使用NLP和Spark Streaming预测电影评论
4.1 NLP简介
4.2 数据集
4.3 特征提取
4.3.1 特征提取方法:词袋模型
4.3.2 文本标记
4.4 特征化——特征哈希
4.5 我们来做一些模型训练吧
4.5.1 Spark决策树模型
4.5.2 Spark朴素贝叶斯模型
4.5.3 Spark随机森林模型
4.5.4 Spark GBM模型
4.5.5 超级学习器模型
4.6 超级学习器
4.6.1 集合所有的转换
4.6.2 使用超级学习器模型
4.7 小结
第5章 word2vec预测和聚类
5.1 词向量的动机
5.2 word2vec解释
5.2.1 什么是单词向量
5.2.2 CBOW模型
5.2.3 skip-gram模型
5.2.4 玩转词汇向量
5.2.5 余弦相似性
5.3 doc2vec解释
5.3.1 分布式内存模型
5.3.2 分布式词袋模型
5.4 应用word2vec并用向量探索数据
5.5 创建文档向量
5.6 监督学习任务
5.7 小结
第6章 从点击流数据中抽取模式
6.1 频繁模式挖掘
6.2 使用Spark MLlib进行模式挖掘
6.2.1 使用FP-growth进行频繁模式挖掘
6.2.2 关联规则挖掘
6.2.3 使用prefix span进行序列模式挖掘
6.2.4 在MSNBC点击流数据上进行模式挖掘
6.3 部署模式挖掘应用
6.4 小结
第7章 使用GraphX进行图分析
7.1 基本的图理论
7.1.1 图
7.1.2 有向和无向图
7.1.3 阶和度
7.1.4 有向无环图
7.1.5 连通分量
7.1.6 树
7.1.7 多重图
7.1.8 属性图
7.2 GraphX分布式图计算引擎
7.2.1 GraphX中图的表示
7.2.2 图的特性和操作
7.2.3 构建和加载图
7.2.4 使用Gephi可视化图结构
7.2.5 图计算进阶
7.2.6 GraphFrame
7.3 图算法及其应用
7.3.1 聚类
7.3.2 顶点重要性
7.4 GraphX在上下文中
7.5 小结
第8章 Lending Club借贷预测
8.1 动机
8.1.1 目标
8.1.2 数据
8.1.3 数据字典
8.2 环境准备
8.3 数据加载
8.4 探索——数据分析
8.4.1 基本清理
8.4.2 预测目标
8.4.3 使用模型评分
8.4.4 模型部署
8.5 小结
第1章 大规模机器学习和Spark入门
“信息是21世纪的石油,而数据分析则是内燃机。”
——Peter Sondergaard,Gartner Research
据估计,到2018年全世界的公司在大数据有关的项目上花费将达到1140亿美元,相比2013年大约增长300%(https://www.capgemini-consulting.com/resource-file-access/resource/pdf/big_data_pov_03-02-15.pdf)。支出增长很大的一部分归因于大量数据的创建和通过使用Hadoop这样的分布式文件系统带来的存储数据的能力。
然而,收集数据只是战役的一半;另一半涉及数据的提取、转换,以及利用现代计算机的计算能力使用各种数学方法处理数据,以更深入地理解数据和数据的模式,从中提取有用的信息以做出相关决策。过去数年里,增长的计算能力,容易得到的可伸缩云服务(如亚马逊AWS、微软Azure以及Heroku),以及许多有助于管理、控制和扩展的基础架构,帮助应用构建的工具和开发库的出现,大大加速了整个数据处理流的发展。计算能力的增长也使得处理更大规模的数据和使用之前无法应用的算法成为可能。各种计算密集的统计和机器学习算法开始被用来从数据中提取有用的信息。
第一个被广泛采用的技术之一是Hadoop。Hadoop通过把中间结果存储在硬盘上来支持MapReduce计算,可是仍然缺乏合适的大数据工具来进行信息提取。不过,Hadoop只是一个开始,随着计算机内存越来越大,新的内存计算框架开始出现,这些框架也开始对数据分析和建模提供基本的支持,比如SystemML、Spark的SparkML,以及Flink的FlinkML。这些框架也仅仅是大数据这个持续演进的生态系统的冰山一角,因为数据量总是在增长,所以要求着新的大数据算法和处理方法。比方说,物联网(IoT)代表了一个新的领域:来自各种数据源(如家庭安全系统、Alexa Echo、生命监视器)的海量流数据不仅带来了数据挖掘的无限潜能,也对新的数据处理和建模方法提出了要求。
在 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Spark机器学习:核心技术与实践 - (EPUB全文下载)