openelib.org 计算机技术

Hadoop数据分析 - (EPUB全文下载)

文件大小：2.28 mb。
文件格式：epub 格式。
书籍内容：

版权信息
书名：Hadoop数据分析
作者：[美] Benjamin Bengfort Jenny Kim
译者：王纯超
ISBN：978-7-115-47964-8
本书由北京图灵文化发展有限公司发行数字版。版权所有，侵权必究。
您购买的图灵电子书仅供您个人使用，未经授权，不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。
如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，并可能追究法律责任。
图灵社区会员那口虫（wt92328@gmail.com）专享尊重版权
版权声明
O'Reilly Media, Inc. 介绍
业界评论
前言
本书目标
目标读者
阅读方式
内容概述
编程和示例代码
GitHub仓库
执行分布式作业
使用示例代码
反馈及作者联系方式
Safari® Books Online
联系我们
致谢
电子书
第一部分　分布式计算入门
第 1 章　数据产品时代
1.1　什么是数据产品
1.2　使用Hadoop构建大规模数据产品
1.2.1　利用大型数据集
1.2.2　数据产品中的Hadoop
1.3　数据科学流水线和Hadoop生态系统
大数据工作流
1.4　小结
第 2 章　大数据操作系统
2.1　基本概念
2.2　Hadoop架构
2.2.1　Hadoop集群
2.2.2　HDFS
2.2.3　YARN
2.3　使用分布式文件系统
2.3.1　基本的文件系统操作
2.3.2　HDFS文件权限
2.3.3　其他HDFS接口
2.4　使用分布式计算
2.4.1　MapReduce：函数式编程模型
2.4.2　MapReduce：集群上的实现
2.4.3　不止一个MapReduce：作业链
2.5　向YARN提交MapReduce作业
2.6　小结
第 3 章　Python 框架和 Hadoop Streaming
3.1　Hadoop Streaming
3.1.1　使用Streaming在CSV数据上运行计算
3.1.2　执行Streaming作业
3.2　Python的MapReduce框架
3.2.1　短语计数
3.2.2　其他框架
3.3　MapReduce进阶
3.3.1　combiner
3.3.2　partitioner
3.3.3　作业链
3.4　小结
第 4 章　Spark 内存计算
4.1　Spark基础
4.1.1　Spark栈
4.1.2　RDD
4.1.3　使用RDD编程
4.2　基于PySpark的交互性Spark
4.3　编写Spark应用程序
使用Spark可视化航班延误
4.4　小结
第 5 章　分布式分析和模式
5.1　键计算
5.1.1　复合键
5.1.2　键空间模式
5.1.3　pair与stripe
5.2　设计模式
5.2.1　概要
5.2.2　索引
5.2.3　过滤
5.3　迈向最后一英里分析
5.3.1　模型拟合
5.3.2　模型验证
5.4　小结
第二部分　大数据科学的工作流和工具
第 6 章　数据挖掘和数据仓储
6.1　Hive结构化数据查询
6.1.1　Hive命令行接口（CLI）
6.1.2　Hive查询语言
6.1.3　Hive数据分析
6.2　HBase
6.2.1　NoSQL与列式数据库
6.2.2　HBase实时分析
6.3　小结
第 7 章　数据采集
7.1　使用Sqoop导入关系数据
7.1.1　从MySQL导入HDFS
7.1.2　从MySQL导入Hive
7.1.3　从MySQL导入HBase
7.2　使用Flume获取流式数据
7.2.1　Flume数据流
7.2.2　使用Flume获取产品印象数据
7.3　小结
第 8 章　使用高级 API 进行分析
8.1　Pig
8.1.1　Pig Latin
8.1.2　数据类型
8.1.3　关系运算符
8.1.4　用户定义函数
8.1.5　Pig小结
8.2　Spark高级API
8.2.1　Spark SQL
8.2.2　DataFrame
8.3　小结
第 9 章　机器学习
9.1　使用Spark进行可扩展的机器学习
9.1.1　协同过滤
9.1.2　分类
9.1.3　聚类
9.2　小结
第 10 章　总结：分布式数据科学实战
10.1　数据产品生命周期
10.1.1　数据湖泊
10.1.2　数据采集
10.1.3　计算数据存储
10.2　机器学习生命周期
10.3　小结
附录 A　创建 Hadoop 伪分布式开发环境
A.1　快速上手
A.2　设置Linux环境
A.2.1　创建Hadoop用户
A.2.2　配置SSH
A.2.3　安装Java
A.2.4　禁用IPv6
A.3　安装Hadoop
A.3.1　解压
A.3.2　环境
A.3.3　Hadoop配置
A.3.4　格式化NameNode
A.3.5　启动Hadoop
A.3.6　重启Hadoop
附录 B　安装 Hadoop 生态系统产品
B.1　打包的Hadoop发行版
B.2　自己安装Apache Hadoop生态系统产品
B.2.1　基本安装和配置步骤
B.2.2　Sqoop特定配置
B.2.3　Hive特定配置
B.2.4　HBase特定配置
B.2.5　安装Spark
术语表
关于作者
关于封面
版权声明
© 2016 by Jenny Kim and Benjamin Bengfort
Simplified Chinese Edition, jointly published by O'Reilly Media, Inc. and Posts & Telecom Press, 2018. Authorized translation of the English edition, 2016 O'Reilly Media, Inc., the owner of all rights to publish and sell t ............

书籍插图：
书籍《Hadoop数据分析》 - 插图1
书籍《Hadoop数据分析》 - 插图2

以上为书籍内容预览，如需阅读全文内容请下载EPUB源文件，祝您阅读愉快。

版权声明：书云(openelib.org)是世界上最大的在线非盈利图书馆之一，致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权，如您认为书云侵犯了您的合法权益，请参考版权保护声明，通过邮件openelib@outlook.com联系我们，我们将及时处理您的合理请求。数研咨询流芳阁研报之家 AI应用导航研报之家
 书云 Open E-Library » Hadoop数据分析 - (EPUB全文下载)

分享到：

相关推荐