Spark Streaming实时流式大数据处理实战 - (EPUB全文下载)

文件大小:0.51 mb。
文件格式:epub 格式。
书籍内容:

Spark Streaming实时流式大数据处理实战
第1篇 Spark基础
第1章 初识Spark
1.1 Spark由来
1.2 流式处理与Spark Streaming
1.2.1 流式处理框架
1.2.2 Spark Streaming初识
1.2.3 Structed Streaming简述
1.3 本章小结
第2章 Spark运行与开发环境
2.1 Spark的下载与安装
2.2 Spark运行模式
2.2.1 本地模式
2.2.2 本地集群模式
2.2.3 Standalone模式
2.2.4 Spark On Yarn模式
2.2.5 Spark On Mesos模式
2.3 搭建开发环境
2.3.1 修改配置
2.3.2 启动集群
2.3.3 IDE配置
2.3.4 UI监控界面
2.4 实例——Spark文件词频统计
2.5 本章小结
第3章 Spark编程模型
3.1 RDD概述
3.2 RDD存储结构
3.3 RDD操作
3.3.1 Transformation操作
3.3.2 Action操作
3.4 RDD间的依赖方式
3.4.1 窄依赖(Narrow Dependency)
3.4.2 Shuffle依赖(宽依赖Wide Dependency)
3.5 从RDD看集群调度
3.6 RDD持久化(Cachinng/Persistence)
3.7 共享变量
3.7.1 累加器(Accumulator)
3.7.2 广播变量(Broadcast Variables)
3.8 实例——Spark RDD操作
3.9 本章小结
第2篇 Spark Streaming详解
第4章 Spark Streaming编程模型及原理
4.1 DStream数据结构
4.2 DStream操作
4.2.1 DStream Transformation操作
4.2.2 DStream输出操作
4.3 Spark Streaming初始化及输入源
4.3.1 初始化流式上下文(StreamingContext)
4.3.2 输入源及接收器(Receivers)
4.4 持久化、Checkpointing和共享变量
4.4.1 DStream持久化(Caching/Persistence)
4.4.2 Checkpointing操作
4.5 实例——Spark Streaming流式词频统计
4.6 本章小结
第5章 Spark Streaming与Kafka
5.1 ZooKeeper简介
5.1.1 相关概念
5.1.2 ZooKeeper部署
5.2 Kafka简介
5.2.1 相关术语
5.2.2 Kafka运行机制
5.2.3 Kafka部署
5.2.4 简单样例
5.3 Spark Streaming接收Kafka数据
5.3.1 基于Receiver的方式
5.3.2 直接读取的方式
5.4 Spark Streaming向Kafka中写入数据
5.5 实例——Spark Streaming分析Kafka数据
5.6 本章小结
第6章 Spark Streaming与外部存储介质
6.1 将DStream输出到文件中
6.2 使用foreachRDD设计模式
6.3 将DStream输出到MySQL中
6.3.1 MySQL概述
6.3.2 MySQL通用连接类
6.3.3 MySQL输出操作
6.4 将DStream输出到HBase中
6.4.1 HBase概述
6.4.2 HBase通用连接类
6.4.3 HBase输出操作
6.4.4 “填坑”记录
6.5 将DStream数据输出到Redis中
6.5.1 Redis安装
6.5.2 Redis概述
6.5.3 Redis通用连接类
6.5.4 输出Redis操作
6.6 实例——日志分析
6.7 本章小结
第7章 Spark Streaming调优实践
7.1 数据序列化
7.2 广播大变量
7.3 数据处理和接收时的并行度
7.4 设置合理的批处理间隔
7.5 内存优化
7.5.1 内存管理
7.5.2 优化策略
7.5.3 垃圾回收(GC)优化
7.5.4 Spark Streaming内存优化
7.6 实例——项目实战中的调优示例
7.6.1 合理的批处理时间(batchDuration)
7.6.2 合理的Kafka拉取量(maxRatePerPartition参数设置)
7.6.3 缓存反复使用的Dstream(RDD)
7.6.4 其他一些优化策略
7.6.5 结果
7.7 本章小结
第3篇 Spark Streaming案例实战
第8章 实时词频统计处理系统实战
8.1 背景与设计
8.2 代码实现
8.2.1 数据生成器
8.2.2 分词服务
8.2.3 流式词频统计
8.3 环境配置与运行
8.3.1 相关服务启动
8.3.2 查看结果
8.4 本章小结
第9章 用户行为统计实战
9.1 背景与设计
9.1.1 不同状态的保存方式
9.1.2 State设计
9.1.3 Redis存储
9.2 代码实现
9.2.1 数据生成器
9.2.2 用户行为统计
9.3 环境配置与运行
9.3.1 相关服务启动
9.3.2 查看结果
9.4 本章小结
第10章 监控报警系统实战
10.1 背景与设计
10.2 代码实现
10.2.1 简易爬虫子项目
10.2.2 流式处理子项目
10.2.3 归纳统计子项目
10.2.4 数据表情况
10.3 环境配置与查看
10.3.1 启动各个模块
10.3.2 查看结果
10.4 本章小结
附录A Scala语言基础
A.1 安装及环境配置
A.1.1 安装Scala
A.1.2 开发环境配置
A.2 Scala语法独特性
A.2.1 换行符
A.2.2 统一类型
A.2.3 Scala变量
A.2.4 条件和循环语句
A.2.5 函数和方法
A.2.6 特质、单例和样例类
A.3 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » Spark Streaming实时流式大数据处理实战 - (EPUB全文下载)