Spark快速大数据分析 - (EPUB全文下载)
文件大小:2.82 mb。
文件格式:epub 格式。
书籍内容:
版权信息
书名:Spark快速大数据分析
作者:[美] Holden Karau Andy Konwinski,Patrick Wendell [加] Matei Zaharia
译者:王道远
ISBN:978-7-115-40309-4
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
图灵社区会员 张海川(zhanghaichuan@ptpress.com.cn) 专享 尊重版权
版权声明O'Reilly Media, Inc. 介绍业界评论推荐序译者序序前言读者对象本书结构相关书籍排版约定使用代码示例Safari® Books Online联系我们致谢第 1 章 Spark 数据分析导论1.1 Spark是什么1.2 一个大一统的软件栈1.2.1 Spark Core1.2.2 Spark SQL1.2.3 Spark Streaming1.2.4 MLlib1.2.5 GraphX1.2.6 集群管理器1.3 Spark的用户和用途1.3.1 数据科学任务1.3.2 数据处理应用1.4 Spark简史1.5 Spark的版本和发布1.6 Spark的存储层次第 2 章 Spark 下载与入门2.1 下载Spark2.2 Spark中Python和Scala的shell2.3 Spark核心概念简介2.4 独立应用2.4.1 初始化SparkContext2.4.2 构建独立应用2.5 总结第 3 章 RDD 编程3.1 RDD基础3.2 创建RDD3.3 RDD操作3.3.1 转化操作3.3.2 行动操作3.3.3 惰性求值3.4 向Spark传递函数3.4.1 Python3.4.2 Scala3.4.3 Java3.5 常见的转化操作和行动操作3.5.1 基本RDD3.5.2 在不同RDD类型间转换3.6 持久化(缓存)3.7 总结第 4 章 键值对操作4.1 动机4.2 创建Pair RDD4.3 Pair RDD的转化操作4.3.1 聚合操作4.3.2 数据分组4.3.3 连接4.3.4 数据排序4.4 Pair RDD的行动操作4.5 数据分区(进阶)4.5.1 获取RDD的分区方式4.5.2 从分区中获益的操作4.5.3 影响分区方式的操作4.5.4 示例:PageRank4.5.5 自定义分区方式4.6 总结第 5 章 数据读取与保存5.1 动机5.2 文件格式5.2.1 文本文件5.2.2 JSON5.2.3 逗号分隔值与制表符分隔值5.2.4 SequenceFile5.2.5 对象文件5.2.6 Hadoop输入输出格式5.2.7 文件压缩5.3 文件系统5.3.1 本地/“常规”文件系统5.3.2 Amazon S35.3.3 HDFS5.4 Spark SQL中的结构化数据5.4.1 Apache Hive5.4.2 JSON5.5 数据库5.5.1 Java数据库连接5.5.2 Cassandra5.5.3 HBase5.5.4 Elasticsearch5.6 总结第 6 章 Spark 编程进阶6.1 简介6.2 累加器6.2.1 累加器与容错性6.2.2 自定义累加器6.3 广播变量广播的优化6.4 基于分区进行操作6.5 与外部程序间的管道6.6 数值RDD的操作6.7 总结第 7 章 在集群上运行 Spark7.1 简介7.2 Spark运行时架构7.2.1 驱动器节点7.2.2 执行器节点7.2.3 集群管理器7.2.4 启动一个程序7.2.5 小结7.3 使用spark-submit部署应用7.4 打包代码与依赖7.4.1 使用Maven构建的用Java编写的Spark应用7.4.2 使用sbt构建的用Scala编写的Spark应用7.4.3 依赖冲突7.5 Spark应用内与应用间调度7.6 集群管理器7.6.1 独立集群管理器7.6.2 Hadoop YARN7.6.3 Apache Mesos7.6.4 Amazon EC27.7 选择合适的集群管理器7.8 总结第 8 章 Spark 调优与调试8.1 使用SparkConf配置Spark8.2 Spark执行的组成部分:作业、任务和步骤8.3 查找信息8.3.1 Spark网页用户界面8.3.2 驱动器进程和执行器进程的日志8.4 关键性能考量8.4.1 并行度8.4.2 序列化格式8.4.3 内存管理8.4.4 硬件供给8.5 总结第 9 章 Spark SQL9.1 连接Spark SQL9.2 在应用中使用Spark SQL9.2.1 初始化Spark SQL9.2.2 基本查询示例9.2.3 SchemaRDD9.2.4 缓存9.3 读取和存储数据9.3.1 Apache Hive9.3.2 Parquet9.3.3 JSON9.3.4 基于RDD9.4 JDBC/ODBC服务器9.4.1 使用Beeline9.4.2 长生命周期的表与查询9.5 用户自定义函数9.5.1 Spark SQL UDF9.5.2 Hive UDF9.6 Spark SQL性能性能调优选项9.7 总结第 10 章 Spark Streaming10.1 一个简单的例子10.2 架构与抽象10.3 转化操作10.3.1 无状态转化操作10.3.2 有状态转化操作10.4 输出操作10.5 输入源10.5.1 核心数据源10.5.2 附加数据源10.5.3 多数据源与集群规模10.6 24/7不间断运行10.6.1 检查点机制10.6.2 驱动器程序容错10.6.3 工作节点容错10.6.4 接收器容错10.6.5 处理保证10.7 Streaming用户界 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Spark快速大数据分析 - (EPUB全文下载)