Hadoop数据分析 - (EPUB全文下载)
文件大小:2.28 mb。
文件格式:epub 格式。
书籍内容:
版权信息
书名:Hadoop数据分析
作者:[美] Benjamin Bengfort Jenny Kim
译者:王纯超
ISBN:978-7-115-47964-8
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
图灵社区会员 那口虫(wt92328@gmail.com) 专享 尊重版权
版权声明
O'Reilly Media, Inc. 介绍
业界评论
前言
本书目标
目标读者
阅读方式
内容概述
编程和示例代码
GitHub仓库
执行分布式作业
使用示例代码
反馈及作者联系方式
Safari® Books Online
联系我们
致谢
电子书
第一部分 分布式计算入门
第 1 章 数据产品时代
1.1 什么是数据产品
1.2 使用Hadoop构建大规模数据产品
1.2.1 利用大型数据集
1.2.2 数据产品中的Hadoop
1.3 数据科学流水线和Hadoop生态系统
大数据工作流
1.4 小结
第 2 章 大数据操作系统
2.1 基本概念
2.2 Hadoop架构
2.2.1 Hadoop集群
2.2.2 HDFS
2.2.3 YARN
2.3 使用分布式文件系统
2.3.1 基本的文件系统操作
2.3.2 HDFS文件权限
2.3.3 其他HDFS接口
2.4 使用分布式计算
2.4.1 MapReduce:函数式编程模型
2.4.2 MapReduce:集群上的实现
2.4.3 不止一个MapReduce:作业链
2.5 向YARN提交MapReduce作业
2.6 小结
第 3 章 Python 框架和 Hadoop Streaming
3.1 Hadoop Streaming
3.1.1 使用Streaming在CSV数据上运行计算
3.1.2 执行Streaming作业
3.2 Python的MapReduce框架
3.2.1 短语计数
3.2.2 其他框架
3.3 MapReduce进阶
3.3.1 combiner
3.3.2 partitioner
3.3.3 作业链
3.4 小结
第 4 章 Spark 内存计算
4.1 Spark基础
4.1.1 Spark栈
4.1.2 RDD
4.1.3 使用RDD编程
4.2 基于PySpark的交互性Spark
4.3 编写Spark应用程序
使用Spark可视化航班延误
4.4 小结
第 5 章 分布式分析和模式
5.1 键计算
5.1.1 复合键
5.1.2 键空间模式
5.1.3 pair与stripe
5.2 设计模式
5.2.1 概要
5.2.2 索引
5.2.3 过滤
5.3 迈向最后一英里分析
5.3.1 模型拟合
5.3.2 模型验证
5.4 小结
第二部分 大数据科学的工作流和工具
第 6 章 数据挖掘和数据仓储
6.1 Hive结构化数据查询
6.1.1 Hive命令行接口(CLI)
6.1.2 Hive查询语言
6.1.3 Hive数据分析
6.2 HBase
6.2.1 NoSQL与列式数据库
6.2.2 HBase实时分析
6.3 小结
第 7 章 数据采集
7.1 使用Sqoop导入关系数据
7.1.1 从MySQL导入HDFS
7.1.2 从MySQL导入Hive
7.1.3 从MySQL导入HBase
7.2 使用Flume获取流式数据
7.2.1 Flume数据流
7.2.2 使用Flume获取产品印象数据
7.3 小结
第 8 章 使用高级 API 进行分析
8.1 Pig
8.1.1 Pig Latin
8.1.2 数据类型
8.1.3 关系运算符
8.1.4 用户定义函数
8.1.5 Pig小结
8.2 Spark高级API
8.2.1 Spark SQL
8.2.2 DataFrame
8.3 小结
第 9 章 机器学习
9.1 使用Spark进行可扩展的机器学习
9.1.1 协同过滤
9.1.2 分类
9.1.3 聚类
9.2 小结
第 10 章 总结:分布式数据科学实战
10.1 数据产品生命周期
10.1.1 数据湖泊
10.1.2 数据采集
10.1.3 计算数据存储
10.2 机器学习生命周期
10.3 小结
附录 A 创建 Hadoop 伪分布式开发环境
A.1 快速上手
A.2 设置Linux环境
A.2.1 创建Hadoop用户
A.2.2 配置SSH
A.2.3 安装Java
A.2.4 禁用IPv6
A.3 安装Hadoop
A.3.1 解压
A.3.2 环境
A.3.3 Hadoop配置
A.3.4 格式化NameNode
A.3.5 启动Hadoop
A.3.6 重启Hadoop
附录 B 安装 Hadoop 生态系统产品
B.1 打包的Hadoop发行版
B.2 自己安装Apache Hadoop生态系统产品
B.2.1 基本安装和配置步骤
B.2.2 Sqoop特定配置
B.2.3 Hive特定配置
B.2.4 HBase特定配置
B.2.5 安装Spark
术语表
关于作者
关于封面
版权声明
© 2016 by Jenny Kim and Benjamin Bengfort
Simplified Chinese Edition, jointly published by O'Reilly Media, Inc. and Posts & Telecom Press, 2018. Authorized translation of the English edition, 2016 O'Reilly Media, Inc., the owner of all rights to publish and sell t ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Hadoop数据分析 - (EPUB全文下载)