Spark核心技术与高级应用 - (EPUB全文下载)
文件大小:7.93 mb。
文件格式:epub 格式。
书籍内容:
大数据技术丛书
Spark核心技术与高级应用
于俊 等著
ISBN:978-7-111-52354-3
本书纸版由机械工业出版社于2015年出版,电子版由华章分社(北京华章图文信息有限公司,北京奥维博世图书发行有限公司)全球范围内制作与发行。
版权所有,侵权必究
客服热线:+ 86-10-68995265
客服信箱:service@bbbvip.com
官方网址:www.hzmedia.com.cn
新浪微博 @华章数媒
微信公众号 华章电子书(微信号:hzebook)
目录
前言
基础篇
第1章 Spark简介
1.1 什么是Spark
1.2 Spark的重要扩展
1.3 本章小结
第2章 Spark部署和运行
2.1 部署准备
2.2 Spark部署
2.3 运行Spark应用程序
2.4 本章小结
第3章 Spark程序开发
3.1 使用Spark Shell编写程序
3.2 构建Spark的开发环境
3.3 独立应用程序编程
3.4 本章小结
第4章 编程模型
4.1 RDD介绍
4.2 创建RDD
4.3 RDD操作
4.4 共享变量
4.5 本章小结
第5章 作业执行解析
5.1 基本概念
5.2 作业执行流程
5.3 运行时环境
5.4 应用程序运行实例
5.5 本章小结
第6章 Spark SQL与DataFrame
6.1 概述
6.2 DataFrame
6.3 数据源
6.4 分布式的SQL Engine
6.5 性能调优
6.6 数据类型
6.7 本章小结
第7章 深入了解Spark Streaming
7.1 基础知识
7.2 DStream操作
7.3 性能调优
7.4 容错处理
7.5 一个例子
7.6 本章小结
第8章 Spark MLlib与机器学习
8.1 机器学习概述
8.2 Spark MLlib介绍
8.3 Spark MLlib库
8.4 ML库
8.5 本章小结
第9章 GraphX图计算框架与应用
9.1 概述
9.2 Spark GraphX架构
9.3 GraphX编程
9.4 应用场景
9.5 本章小结
第10章 SparkR(R on Spark)
10.1 概述
10.2 安装SparkR
10.3 SparkR的运行与应用示例
10.4 本章小结
实战篇
第11章 大数据分析系统
11.1 背景
11.2 数据格式
11.3 应用架构
11.4 业务实现
11.5 本章小结
第12章 系统资源分析平台
12.1 业务背景
12.2 应用架构
12.3 代码实现
12.4 结果验证
12.5 本章小结
第13章 在Spark上训练LR模型
13.1 逻辑回归简介
13.2 数据格式
13.3 MLlib中LR模型源码介绍
13.4 实现案例
13.5 本章小结
第14章 获取二级邻居关系图
14.1 理解PageRank
14.2 PageRank算法基于Spark的实现
14.3 基于PageRank的二级邻居获取
14.4 本章小结
高级篇
第15章 调度管理
15.1 调度概述
15.2 调度器
15.3 本章小结
第16章 存储管理
16.1 硬件环境
16.2 Storage模块
16.3 Shuffle数据持久化
16.4 本章小结
第17章 监控管理
17.1 Web界面
17.2 Spark UI历史监控
17.3 监控工具
17.4 本章小结
第18章 性能调优
18.1 文件的优化
18.2 序列化数据
18.3 缓存
18.4 共享变量
18.5 流水线优化
18.6 本章小结
扩展篇
第19章 Spark-jobserver实践
19.1 Spark-jobserver是什么
19.2 编译、部署及体验
19.3 Spark-jobserver程序实战
19.4 使用场景:用户属性分布计算
19.5 本章小结
第20章 Spark Tachyon实战
20.1 Tachyon文件系统
20.2 Tachyon入门
20.3 容错机制
20.4 本章小结
前言
上善若水,水善利万物而不争。
数据一如水,无色无味,非方非圆,以百态存于自然,于自然无违也。绵绵密密,微则无声,巨则汹涌;与人无争却又容纳万物。
生活离不开水,同样离不开数据,我们被数据包围,在数据中生活,在数据中入梦和清醒。
某夜入梦时分,趴桌而眠,偶遇庄周那只彩色翅膀的蝴蝶飞入梦中,在数据上翩翩起舞;清醒时分,蝴蝶化身数据,继续在眼前飞舞,顿悟大数据之哲学。本书从《道德经》和《庄子》各精选10句名言,并结合大数据相关内容,对名言加以讲解,引导大家以老庄的思考方式来认识大数据的内涵,探求老子道之路和庄子智慧之路。
为什么要写这本书
2014年春天,我所在的知识云团队聚焦大数据,调研过程中,深深感觉到国内资料匮乏,可供参考的资料仅是Spark官方文档。团队人员英文水平参差不齐,Spark官方文档门槛比较高,学习起来困难重重。
当时和几个同事一起,对Spark官方文档进行了翻译,参考了机械工业出版社《Spark快速数据处理》的小册子,编了一本《Spark数据处理》内部文档,解决了一部分问题,并将Spark应用推向具体业务。在实际业务中,相比传统的数据处理,尤其是实时处理和迭代计算,MapReduce在Spark面前显得苍白无力。随着Spark的应用越来越多,深深感觉到《Spark数据处理》内部文档的不足,遗憾的是,一直没有时间进行补充和完善,俨然成了一块心病。
2014年9月,在机械工业出版社华章公司福川兄的指导下,开始重点思索:Spark解决哪些问题、优势在哪里、从业人员遇到哪些困难、如何解决这些困难等问题,并得到了吴爱华、吕劲松、代其锋、马海平、向海、陈明磊等几位同事的支持。怀着一颗“附庸风雅”之心,我决定和大家一起写一本具有一定实战价值的Spark方面的书籍。
当前大数据从业者,有数据科学家、算法专家、来自互联网的程序员、来自传统行业的工程师等,无论来自哪里,作为新 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Spark核心技术与高级应用 - (EPUB全文下载)