Hadoop大数据实战权威指南(第2版) - (EPUB全文下载)

文件大小:0.59 mb。
文件格式:epub 格式。
书籍内容:

Hadoop大数据实战权威指南(第2版)
第一篇 大数据的基本概念和技术
1.1 大数据的时代背景
1.2 大数据的基本概念和特征
1.3 大数据系统的技术支撑体系
1.4 大数据领域的主要职位及其能力要求
1.5 本章小结
第2章 Hadoop大数据关键技术
2.1 Hadoop大数据应用生态系统
2.2 大数据采集技术
2.3 大数据存储技术
2.4 分布式计算框架
2.5 数据分析平台与工具
2.6 本章小结
第二篇 Hadoop大数据平台搭建与基本应用
3.1 Linux操作系统
3.2 Linux集群的搭建
3.3 集群的配置
3.4 Linux基本命令
3.5 本章小结
第4章 HDFS安装与基本应用
4.1 HDFS概述
4.2 HDFS架构分析
4.3 文件操作过程分析
4.4 Hadoop的安装与配置
4.5 Hadoop集群的启动
4.6 Hadoop集群的基本应用
4.7 本章小结
第5章 MapReduce与Yarn
5.1 MapReduce程序的概念
5.2 深入理解Yarn
5.3 在Linux平台安装Eclipse
5.4 开发MapReduce程序的基本方法
5.5 本章小结
第6章 Hive和HBase的安装与应用
6.1 在CentOS 7下安装MySQL
6.2 Hive安装与应用
6.3 ZooKeeper集群安装
6.4 HBase的安装与应用
6.5 本章小结
第7章 Sqoop和Kafka的安装与应用
7.1 安装部署Sqoop
7.2 安装部署Kafka集群
7.3 本章小结
第8章 Spark集群的安装与开发环境的配置
8.1 深入理解Spark
8.2 Scala的安装与配置
8.3 Spark集群的安装与配置
8.4 IDEA开发环境的安装与配置
8.5 本章小结
第9章 Spark应用基础
9.1 Spark应用程序的运行模式
9.2 Spark的应用设计
9.3 本章小结
第三篇 大数据处理与项目开发
10.1 数据预处理
10.2 创建数据仓库
10.3 数据分析
10.4 本章小结
第11章 协同过滤推荐系统
11.1 推荐算法概述
11.2 协同过滤推荐算法分析
11.3 Spark MLlib推荐算法应用
11.4 本章小结
第12章 销售数据分析系统
12.1 数据采集
12.2 在HBase集群上准备数据
12.3 安装Phoenix中间件
12.4 基于Web的前端开发
12.5 本章小结
参考文献
第一篇 大数据的基本概念和技术
第1章 绪论
最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
本章主要分析大数据的时代背景与我国的大数据战略,给出大数据的概念,并分析其特性,重点介绍大数据技术的支撑体系,包括数据采集、存储、分布式计算和应用,最后简要讨论大数据领域的主要职位及其要求。
1.1 大数据的时代背景
1.1.1 全球大数据浪潮
为什么最近几年大数据变得如此引人注目?大数据到底有多大?
一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万。
目前,全球数据量已经从TB(1024 GB=1 TB)级别跃升到PB(1024 TB=1 PB)、EB(1024 PB=1 EB)乃至ZB(1024 EB=1 ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49 ZB,2009年的数据量为0.8 ZB,2010年增长到了1.2 ZB,2011年的数量更是高达1.82 ZB,相当于全球每人产生200 GB以上的数据。而到了2016年,人类生产的所有印刷材料的数据量是300 PB,人类历史上说过的所有话的数据量大约是5 EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去在最近几年内产生的,而到了2020年,全世界所产生的数据规模将达到2016年的44倍。
这样的趋势将会持续下去。我们现在还处于大数据的初级阶段,随着技术的进步,设备、交通工具和迅速发展的可穿戴科技将实现互连互通。科技的进步已经使创造、采集和管理信息的成本降至十年前的六分之一,而从2005年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美元。
正如《纽约时报》2012年2月的一篇专栏文章所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而做出,而并非基于经验和直觉。哈佛大学社会学教授加里金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
越来越多的政府、企业等机构开始意识到数据正在成为最重要的资产,数据分析能力正在成为核心竞争力。
2012年3月22日,美国政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。美国政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分。未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。2014年5月美国总统办公室提交了“大数据:把握机遇,维护价值”政策报告,强调利用大数据来促进增长、降低风险的重要性。2016年5月白宫又提出了“联邦大数据研发战略计划”,谋划大数据战略的下一步行动方针。
欧盟方面,最近几年主要在四方面持续发力:一是资助大数据领域的研究和创新活动;二是实施开放数据政策;三是促进科研实验成果和数据的使用及再利用;四是整合数据价值链的各个战略要素。
日本政府也十分重视大数据研究与产业发展。矢野经济研究所预 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » Hadoop大数据实战权威指南(第2版) - (EPUB全文下载)