openelib.org 计算机技术

Hadoop应用架构 - (EPUB全文下载)

文件大小：3.71 mb。
文件格式：epub 格式。
书籍内容：

版权信息
书名：Hadoop应用架构
作者：[美] Mark Grover，Ted Malaska，onathan Seidman，Gwen Shapira
译者：郭文超
ISBN：978-7-115-44243-7
本书由北京图灵文化发展有限公司发行数字版。版权所有，侵权必究。
您购买的图灵电子书仅供您个人使用，未经授权，不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。
如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，并可能追究法律责任。
图灵社区会员 Guojia（452738289@qq.com）专享尊重版权
版权声明
O'Reilly Media, Inc. 介绍
业界评论
译者序
背景
关于本书
致谢
序
前言
示例代码
目标读者
写作目的
本书结构
排版约定
使用代码示例
Safari® Books Online
联系我们
致谢
Mark Grover的致谢
Ted Malaska的致谢
Jonathan Seidman的致谢
Gwen Shapira的致谢
第一部分　考虑 Hadoop 应用的架构设计
第 1 章　Hadoop 数据建模
1.1　数据存储选型
1.1.1　标准文件格式
1.1.2　Hadoop文件类型
1.1.3　序列化存储格式
1.1.4　列式存储格式
1.1.5　压缩
1.2　HDFS模式设计
1.2.1　文件在HDFS中的位置
1.2.2　高级HDFS模式设计
1.2.3　HDFS模式设计总结
1.3　HBase模式设计
1.3.1　行键
1.3.2　时间戳
1.3.3　hop
1.3.4　表和Region
1.3.5　使用列
1.3.6　列簇
1.3.7　TTL
1.4　元数据管理
1.4.1　什么是元数据
1.4.2　为什么元数据至关重要
1.4.3　元数据的存储位置
1.4.4　元数据管理举例
1.4.5　Hive metastore与HCatalog的局限性
1.4.6　其他存储元数据的方式
1.5　结论
第 2 章　Hadoop 数据移动
2.1　数据采集考量
2.1.1　数据采集的时效性
2.1.2　增量更新
2.1.3　访问模式
2.1.4　数据源系统及数据结构
2.1.5　变换
2.1.6　网络瓶颈
2.1.7　网络安全性
2.1.8　被动推送与主动请求
2.1.9　错误处理
2.1.10　复杂度
2.2　数据采集选择
2.2.1　文件传输
2.2.2　文件传输与其他采集方法的考量
2.2.3　Sqoop：Hadoop与关系数据库的批量传输
2.2.4　Flume：基于事件的数据收集及处理
2.2.5　Kafka
2.3　数据导出
2.4　小结
第 3 章　Hadoop 数据处理
3.1　MapReduce
3.1.1　MapReduce概述
3.1.2　MapReduce示例
3.1.3　MapReduce使用场景
3.2　Spark
3.2.1　Spark概述
3.2.2　Spark组件概述
3.2.3　Spark基本概念
3.2.4　Spark的优点
3.2.5　Spark示例
3.2.6　Spark使用场景
3.3　抽象层
3.3.1　Pig
3.3.2　Pig示例
3.3.3　Pig使用场景
3.4　Crunch
3.4.1　Crunch示例
3.4.2　Crunch使用场景
3.5　Cascading
3.5.1　Cascading示例
3.5.2　Cascading使用场景
3.6　Hive
3.6.1　Hive概述
3.6.2　Hive示例
3.6.3　Hive使用场景
3.7　Impala
3.7.1　Impala概述
3.7.2　面向高速查询的设计
3.7.3　Impala示例
3.7.4　Impala使用场景
3.8　小结
第 4 章　Hadoop 数据处理通用范式
4.1　模式一：依主键移除重复记录
4.1.1　去重示例的测试数据生成
4.1.2　代码示例：使用Scala实现Spark去重
4.1.3　代码示例：使用SQL实现去重
4.2　模式二：数据开窗分析
4.2.1　生成开窗分析的示例数据
4.2.2　代码示例：使用Spark分析数据的高峰和低谷
4.2.3　代码示例：使用SQL分析数据的高峰和低谷
4.3　模式三：基于时间序列的更新
4.3.1　利用HBase的版本特性
4.3.2　以记录主键与开始时间作HBase的行键
4.3.3　重写HDFS数据更新整个表
4.3.4　利用HDFS上的分区存储当前记录和历史记录
4.3.5　生成时间序列的示例数据
4.3.6　代码示例：使用Spark更新时间序列数据
4.3.7　代码示例：使用SQL更新时间序列数据
4.4　小结
第 5 章　Hadoop 图处理
5.1　什么是图
5.2　什么是图处理
5.3　分布式系统中的图处理
5.3.1　块同步并行模型
5.3.2　BSP举例
5.4　Giraph
5.4.1　数据的输入和分片
5.4.2　使用BSP批处理图
5.4.3　将图回写磁盘
5.4.4　整体流程控制
5.4.5　何时选用Giraph
5.5　GraphX
5.5.1　另一种RDD
5.5.2　GraphX的Pregel接口
5.5.3　vprog()
5.5.4　sendMessage()
5.5.5　mergeMessage()
5.6　工具选择
5.7　小结
第 6 章　协调调度
6.1　工作流协调调度的必要性
6.2　脚本的局限性
6.3　企业级任务调度器及Hadoop
6.4　Hadoop生态系统中的工作流框架
6.5　Oozie术语
6.6　Oozie概述
6.7　Oozie工作流
6.8　工作流范式
6.8.1　点对点式工作流
6.8.2　扇出式工作流
6.8.3　分支决策式工作流
6.9　工作流参数化
6.10　Classpath定义
6.11　调度模式
6.11.1　依频次调 ............

书籍插图：
书籍《Hadoop应用架构》 - 插图1
书籍《Hadoop应用架构》 - 插图2

以上为书籍内容预览，如需阅读全文内容请下载EPUB源文件，祝您阅读愉快。

版权声明：书云(openelib.org)是世界上最大的在线非盈利图书馆之一，致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权，如您认为书云侵犯了您的合法权益，请参考版权保护声明，通过邮件openelib@outlook.com联系我们，我们将及时处理您的合理请求。数研咨询流芳阁研报之家 AI应用导航研报之家
 书云 Open E-Library » Hadoop应用架构 - (EPUB全文下载)

分享到：

相关推荐