MapReduce 2.0源码分析与编程实战 - (EPUB全文下载)
文件大小:0.34 mb。
文件格式:epub 格式。
书籍内容:
MapReduce 2.0源码分析与编程实战
第1章 大象也会跳舞
第2章 大象的肚子——HDFS文件系统详解
第3章 “吃下去吐出来”——Hadoop文件I/O系统详解
第4章 “大象的大脑”——MapReduce框架结构与源码分析
第5章 深入!MapReduce配置与测试
第6章 大象的思考流程——MapReduce运行流程详解
第7章 更强的大象——MapReduce高级程序设计续
第8章 MapReduce相关特性详解
第9章 啤酒与尿布——MapReduce连接与数据挖掘初步
第10章 MapReduce实战编程及深度分析
版权
第1章 大象也会跳舞
大象能跳舞吗?当我们被庞大而臃肿的数据压垮,常常会不停地问自己是否真的有必要收集那么多的数据吗?对于这个问题,我回答是 “一切都取决于你自己”。对于庞大的数据来说,在不同人的眼中,既可以是一座无用的垃圾山,也可以是一座未经开凿的金山,这一切都取决于使用者的能力与眼界。
1.1 大数据时代
什么是“大数据”?一篇名为“互联网上一天”的文章告诉我们:一天之中,互联网上产生的全部内容可以刻满1.68亿张DVD,发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量),发出的社区帖子达200万个(相当于《时代》杂志770年的文字量),卖出的手机数量为37.8万台,比全球每天出生的婴儿数量高出37.1万名。
随着信息爆炸性的增长,“大数据”成为当前时代最为流行的一个新词汇,其不仅作为IT行业的一个通用词汇在日常工作中使用,并且广泛渗透到商业、金融、教育等一系列与数据相关的领域中。并且,随着大数据的普及以及对其进行分析和挖掘处理技术的提高,大数据越来越被人们重视。围绕大数据获得的商业价值逐渐成为行业人士争相追捧的利润焦点。
正如人们常说的一句话,“冰山只露出它的一角”。大数据也是如此,“人们看到的只是其露出水面的那一部分,而更多的则是隐藏在水面下”。简单地掌握海量的数据资料是不够的。大数据时代的强者并不是那些看服务器中存放有多少数据的人,而是那些懂得如何让庞大的数据实现真正的实用化和获取其中包含的庞大数据信息的人,是那些懂得如何对这些数据信息进行有意义的针对性处理的人,换句话说,就是如何使用手中的工具来对数据进行二次加工和获取,通过这种深加工实现数据的增值与增产,从而实现大数据为我所用。
1.2 大数据分析时代
如果我们把大数据比作一块未经开发的沃土,那么只有经过耕耘收获的果实才能够算得上是真正获得了沃土的回报。换言之,如果把大数据比作一块沃土,那么只有强化对土地的“耕耘”能力,才能通过“加工”实现数据的“增值”。
随着“大数据时代”的开启,对大数据本身的处理和分析越来越为生产者和商业者所看重。但是问题在于,相比于拥有较长历史的数据库分析和传统数据分析,大数据分析具有待数据量特别巨大、算法分析特别复杂等特点。
一般来说,大数据分析需要涉及以下4个方面。
● 有效的数据质量。任何数据分析都来自于真实的数据基础,而一个真实数据是采用标准化的流程和工具对数据进行处理得到的,可以保证一个预先定义好的高质量的分析结果。
● 优秀的分析引擎。对于大数据来说,数据的来源多种多样,特别是非结构化数据来源的多样性给大数据分析带来了新的挑战。因此,我们需要一系列的工具去解析、提取、分析数据。大数据分析引擎就是用于从数据中提取我们所需要的信息。
● 合适的分析算法。采用合适的大数据分析算法能让我们深入数据内部挖掘价值。在算法的具体选择上,不仅仅要求能够处理的大数据的数量,还涉及对大数据处理的速度。
● 对未来的合理预测。数据分析的目的是对已有数据进行总结,并且将现象与其他情况紧密连接在一起,从而获得对未来的预测。大数据分析也是如此。不同的是,在大数据分析中,数据来源的基础更为广泛,需要处理的方面更多。
由这些方面可以知道,大数据分析是数据分析最前沿的技术。这种新的数据分析是目标导向的,不用关心数据的来源和具体格式,能够根据我们的需求去处理各种结构化、非结构化和半结构化数据,配合使用合适的分析引擎,能够输出有效结果,提供一定的对未来趋势的预测分析服务,能够面向更广泛的普通员工快速部署分析应用。
长期以来,对数据的统计分析使用的还是一般传统的关系型数据库分析技术。不得不说,关系型数据库从诞生到今天,经历了50年的发展,已经成为一门成熟的、至今仍旧具有一定活力的数据分析管理技术。
但是,由于关系型数据库天生的缺陷,其丧失了在互联网大数据时代的机会,原因主要是其传统的关系型数据管理模型的扩展无法与如今的大数据进行很好的融合,不能满足大数据的要求。对于关系型数据库来说,其追求的是高度一致性和数据正确性。而这恰恰制约了其扩展能力,无法实现任意的存储容量扩展和本身处理能力的加强,使之无法满足互联网时代的大数据分析需求。
1.3 简单、粗暴、有效——这就是Hadoop
2005年,IT界先锋Apache基金会率先提出了一种先进的不以关系型数据为基础的大数据处理模型——Hadoop。
Hadoop就是解决面向互联网及其他来源的大数据分析和并行处理的计算模型。它的诞生引起了学术界、金融界以及商业界的广泛关注。Hadoop创建之初的宗旨就是让使用者能够通过使用大量普通的服务器搭建相应的服务器集群来实现大数据的并行处理,其优先考虑的是数据扩展性和系统的可用性。
简单、粗暴、有效——这就是Hadoop。
Hadoop是一个简单的大数据分布式处理框架,可以使程序设计人员和数据分析人员在不了解分布式底层细节的情况下,开发分布式程序。
Hadoop是一款粗暴的数据处理工具程序。读者在学习Hadoop以前,可能习惯了用精巧的算法、优雅的程序对数据进行处理。但是到Hadoop这里,可以套用电影里的一句台词,“她来了,一切都变了”。Hadoop 创新了数据获取和处理的理念,不再需要使用以往的建立索引来对数据分类,通过相应的表链接将需要的数据匹配成我们需要的格式。Hadoop没有索引,只有蛮力。
小提示:Hadoop ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » MapReduce 2.0源码分析与编程实战 - (EPUB全文下载)