Hadoop海量数据处理:技术详解与项目实战(第2版) - (EPUB全文下载)

文件大小:0.31 mb。
文件格式:epub 格式。
书籍内容:

Hadoop海量数据处理:技术详解与项目实战(第2版)
基础篇:Hadoop基础
第1章 绪论
第2章 环境准备
第3章 Hadoop的基石:HDFS
第4章 YARN:统一资源管理和调度平台
第5章 分而治之的智慧:MapReduce
第6章 SQL on Hadoop:Hive
第7章 SQL to Hadoop : Sqoop
第8章 HBase: Hadoop Database
第9章 Hadoop性能调优和运维
应用篇:商业智能系统项目实战
第10章 在线图书销售商业智能系统
第11章 系统结构设计
第12章 在开发之前
第13章 实现数据导入导出模块
第14章 实现数据分析工具模块
第15章 实现业务数据的数据清洗模块
第16章 实现点击流日志的数据清洗模块
第17章 实现购书转化率分析模块
第18章 实现购书用户聚类模块
第19章 实现调度模块
结束篇:总结和展望
第20章 总结和展望
参考文献
欢迎来到异步社区!
看完了
基础篇:Hadoop基础
本书的第一部分相当于工具的使用手册,将会介绍Hadoop的核心组件:HDFS、YARN、MapReduce、Hive、Sqoop和HBase,并在此基础上,进一步学习Hadoop性能调优和运维。通过这部分的学习,读者将获得Hadoop工程师的理论基础。
第1章 绪论
这是最好的时代,这是最坏的时代;这是智慧的时代,这是愚蠢的时代;这是信仰的时期,这是怀疑的时期;这是光明的季节,这是黑暗的季节;这是希望之春,这是失望之冬……
——狄更斯《双城记》
本章作为绪论,目的是在学习Hadoop之前,让读者理清相关概念以及这些概念之间的联系。
1.1 Hadoop和云计算
Hadoop从问世之日起,就和云计算有着千丝万缕的联系。本节将在介绍Hadoop的同时,介绍Hadoop和云计算之间的关系,为后面的学习打下基础。
1.1.1 Hadoop的电梯演讲
如果你是一名创业者或者是一名项目经理,那么最好准备一份“电梯演讲”。所谓电梯演讲,是对自己产品的简单介绍,通常都是1~2分钟(电梯从1层~30层的时间),以便如果你恰巧和投资人挤上同一部电梯的时候,能够说服他投资你的项目或者产品。
在做Hadoop的电梯演讲之前,先来恶补一下Hadoop的有关知识。来看看Hadoop的发布者Apache软件基金会(ASF)对Hadoop的定义:Hadoop软件库是一个框架,允许在集群中使用简单的编程模型对大规模数据集进行分布式计算。它被设计为可以从单一服务器扩展到数以千计的本地计算和存储的节点,并且Hadoop会在应用层面监测和处理错误,而不依靠硬件的高可用性,所以Hadoop能够在一个每个节点都有可能出错的集群之上提供一个高可用服务。
从上面的定义可以看出Hadoop的如下几个特点。
1.Hadoop是一个框架
很多初学者在学习Hadoop的时候,对Hadoop的本质并不十分了解,Hadoop其实是由一系列的软件库组成的框架。这些软件库也可称作功能模块,它们各自负责了Hadoop的一部分功能,其中最主要的是Common、HDFS和YARN。HDFS负责数据的存储,YARN负责统一资源调度和管理,Common则提供远程过程调用RPC、序列化机制等。
而从字面来说:Hadoop没有任何实际的意义。Hadoop这个名字不是缩写,它是一个虚构的名字。Hadoop的创建者Doug Cutting这样解释Hadoop这一名称的来历:“这个名字是我的孩子给一头吃饱了的棕黄色大象取的。我的命名标准是简短,容易发音和拼写,没有太多含义,并且不会被用于别处。小孩子是这方面的高手。”所以我们看到这头欢快的大象也随着Hadoop的流行而逐渐深入人心(如图1-1所示)。
图1-1 Hadoop的LOGO
2.Hadoop适合处理大规模数据
这是Hadoop一个非常重要的特点和优点,Hadoop海量数据的处理能力十分可观,并且能够实现分布式存储和分布式计算,有统一的资源管理和调度平台,扩展能力十分优秀。在2008年的时候,Hadoop打破297 s的世界纪录,成为最快的TB级数据排序系统,仅用时209 s。
3.Hadoop被部署在一个集群上
承载Hadoop的物理实体,是一个物理的集群。所谓集群,是一组通过网络互联的计算机,集群里的每一台计算机称作一个节点。Hadoop被部署在集群之上,对外提供服务。当节点数量足够多的时候,故障将成为一种常态而不是异常现象,Hadoop在设计之初就将故障的发生作为常态进行考虑,数据的灾备以及应用的容错对于用户来说都是透明的,用户得到的只是一个提供高可用服务的集群。
了解了上面三点,我们就可以开始准备电梯演讲了。麦肯锡对电梯演讲的要求是“凡事要归纳为三点”,因为人们一般只能记得住一二三而记不住四五六,基于此,我们的Hadoop电梯演讲为“Hadoop是一个提供分布式存储和计算的软件框架,它具有无共享、高可用、弹性可扩展的特点,非常适合处理海量数据”,一共46个字。
1.1.2 Hadoop生态圈
一般来说,狭义的Hadoop仅代表了Common、HDFS、YARN和MapReduce模块。但是开源世界的创造力是无穷的,围绕Hadoop有越来越多的软件蓬勃出现,方兴未艾,构成了一个生机勃勃的Hadoop生态圈。在特定场景下,Hadoop有时也指代Hadoop生态圈。
图1-2所示是一个Hadoop生态圈的架构图。
图1-2 Hadoop生态圈
Hadoop Common是Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如系统配置工具Configuration、远程过程调用RPC、序列化机制和日志操作等,是其他模块的基础。
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop的基石。HDFS是一个具有高度容错性的文件系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » Hadoop海量数据处理:技术详解与项目实战(第2版) - (EPUB全文下载)