Hadoop基础教程 - (EPUB全文下载)
文件大小:2.54 mb。
文件格式:epub 格式。
书籍内容:
版权信息
书名:Hadoop基础教程
作者:Garry Turkington
译者:张治起
ISBN:978-7-115-34133-4
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
目录
版权声明
前言
第1章 绪论
1.1 大数据处理
1.1.1 数据的价值
1.1.2 受众较少
1.1.3 一种不同的方法
1.1.4 Hadoop
1.2 基于Amazon Web Services的云计算
1.2.1 云太多了
1.2.2 第三种方法
1.2.3 不同类型的成本
1.2.4 AWS:Amazon的弹性架构
1.2.5 本书内容
1.3 小结
第2章 安装并运行Hadoop
2.1 基于本地Ubuntu主机的Hadoop系统
其他操作系统
2.2 实践环节:检查是否已安装JDK
2.2.1 安装Hadoop
2.3 实践环节:下载Hadoop
2.4 实践环节:安装SSH
2.4.1 配置并运行Hadoop
2.5 实践环节:使用Hadoop计算圆周率
3种模式
2.6 实践环节:配置伪分布式模式
配置根目录并格式化文件系统
2.7 实践环节:修改HDFS的根目录
2.8 实践环节:格式化NameNode
启动并使用Hadoop
2.9 实践环节:启动Hadoop
2.10 实践环节:使用HDFS
2.11 实践环节:MapReduce的经典入门程序——字数统计
通过浏览器查看Hadoop活动
2.12 使用弹性MapReduce
创建Amazon Web Services账号
2.13 实践环节:使用管理控制台在EMR运行WordCount
2.13.1 使用EMR的其他方式
2.13.2 AWS生态系统
2.14 本地Hadoop与EMR Hadoop的对比
2.15 小结
第3章 理解MapReduce
3.1 键值对
3.1.1 具体含义
3.1.2 为什么采用键/值数据
3.1.3 MapReduce作为一系列键/值变换
3.2 MapReduce的Hadoop Java API
0.20 MapReduce Java API
3.3 编写MapReduce程序
3.4 实践环节:设置classpath
3.5 实践环节:实现WordCount
3.6 实践环节:构建JAR文件
3.7 实践环节:在本地Hadoop集群运行WordCount
3.8 实践环节:在EMR上运行WordCount
3.8.1 0.20之前版本的Java MapReduce API
3.8.2 Hadoop提供的mapper和reducer实现
3.9 实践环节:WordCount的简易方法
3.10 查看WordCount的运行全貌
3.10.1 启动
3.10.2 将输入分块
3.10.3 任务分配
3.10.4 任务启动
3.10.5 不断监视JobTracker
3.10.6 mapper的输入
3.10.7 mapper的执行
3.10.8 mapper的输出和reducer的输入
3.10.9 分块
3.10.10 可选分块函数
3.10.11 reducer类的输入
3.10.12 reducer类的执行
3.10.13 reducer类的输出
3.10.14 关机
3.10.15 这就是MapReduce的全部
3.10.16 也许缺了combiner
3.11 实践环节:使用combiner编写WordCount
3.12 实践环节:更正使用combiner的WordCount
复用助您一臂之力
3.13 Hadoop专有数据类型
3.13.1 Writable和WritableComparable接口
3.13.2 wrapper类介绍
3.14 实践环节:使用Writable包装类
3.15 输入/输出
3.15.1 文件、split和记录
3.15.2 InputFormat和RecordReader
3.15.3 Hadoop提供的InputFormat
3.15.4 Hadoop提供的RecordReader
3.15.5 OutputFormat和RecordWriter
3.15.6 Hadoop提供的OutputFormat
3.15.7 别忘了Sequence files
3.16 小结
第4章 开发MapReduce程序
4.1 使用非Java语言操作Hadoop
4.1.1 Hadoop Streaming工作原理
4.1.2 使用Hadoop Streaming的原因
4.2 实践环节:使用Streaming实现WordCount
在作业中使用Streaming的区别
4.3 分析大数据集
4.3.1 获取UFO目击事件数据集
4.3.2 了解数据集
4.4 实践环节:统计汇总UFO数据
4.5 实践环节:统计形状数据
4.6 实践环节:找出目击事件的持续时间与UFO形状的关系
4.7 实践环节:在命令行中执行形状/时间分析
使用Java分析形状和地点
4.8 实践环节:使用ChainMapper进行字段验证/分析
4.9 实践环节:使用Distributed Cache改进地点输出
4.10 计数器、状态和其他输出
4.11 实践环节:创建计数器、任务状态和写入日志
信息太多
4.12 小结
第5章 高级MapReduce技术
5.1 初级、高级还是中级
5.2 多数据源联结
5.2.1 不适合执行联结操作的情况
5.2.2 map端联结与reduce端联结的对比
5.2.3 匹配账户与销售信息
5.3 实践环节:使用MultipleInputs实现reduce端联结
5.3.1 实现map端联结
5.3.2 是否进 ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Hadoop基础教程 - (EPUB全文下载)