大数据技术体系详解:原理、架构与实践 - (EPUB全文下载)
文件大小:0.98 mb。
文件格式:epub 格式。
书籍内容:
大数据技术体系详解:原理、架构与实践
第1章 企业级大数据技术体系概述
1.1 大数据系统产生背景及应用场景
1.2 企业级大数据技术框架
1.3 企业级大数据技术实现方案
1.4 大数据架构:Lambda Architecture
1.5 Hadoop与Spark版本选择及安装部署
1.6 小结
1.7 本章问题
第二部分 数据收集篇
第2章 关系型数据的收集
2.1 Sqoop概述
2.2 Sqoop基本架构
2.3 Sqoop使用方式
2.4 数据增量收集CDC
2.5 小结
2.6 本章问题
第3章 非关系型数据的收集
3.1 概述
3.2 Flume NG基本架构
3.3 Flume NG数据流拓扑构建方法
3.4 小结
3.5 本章问题
第4章 分布式消息队列Kafka
4.1 概述
4.2 Kafka设计架构
4.3 Kafka程序设计
4.4 Kafka典型应用场景
4.5 小结
4.6 本章问题
第三部分 数据存储篇
第5章 数据序列化与文件存储格式
5.1 数据序列化的意义
5.2 数据序列化方案
5.3 文件存储格式剖析
5.4 小结
5.5 本章问题
第6章 分布式文件系统
6.1 背景
6.2 文件级别和块级别的分布式文件系统
6.3 HDFS基本架构
6.4 HDFS关键技术
6.5 HDFS访问方式
6.6 小结
6.7 本章问题
第7章 分布式结构化存储系统
7.1 背景
7.2 HBase数据模型
7.3 HBase基本架构
7.4 HBase访问方式
7.5 HBase应用案例
7.6 分布式列式存储系统Kudu
7.7 小结
7.8 本章问题
第四部分 分布式协调与资源管理篇
第8章 分布式协调服务ZooKeeper
8.1 分布式协调服务的存在意义
8.2 ZooKeeper数据模型
8.3 ZooKeeper基本架构
8.4 ZooKeeper程序设计
8.5 ZooKeeper应用案例
8.6 小结
8.7 本章问题
第9章 资源管理与调度系统YARN
9.1 YARN产生背景
9.2 YARN设计思想
9.3 YARN的基本架构与原理
9.4 YARN资源调度器
9.5 YARN资源隔离
9.6 以YARN为核心的生态系统
9.7 资源管理系统Mesos
9.8 资源管理系统架构演化
9.9 小结
9.10 本章问题
第五部分 大数据计算引擎篇
第10章 批处理引擎MapReduce
10.1 概述
10.2 MapReduce编程模型
10.3 MapReduce程序设计
10.4 MapReduce内部原理
10.5 MapReduce应用实例
10.6 小结
10.7 本章问题
第11章 DAG计算引擎Spark
11.1 概述
11.2 Spark编程模型
11.3 Spark运行模式
11.4 Spark程序设计实例
11.5 Spark内部原理
11.6 DataFrame、Dataset与SQL
11.7 Spark生态系统
11.8 小结
11.9 本章问题
第12章 交互式计算引擎
12.1 概述
12.2 ROLAP
12.3 MOLAP
12.4 小结
12.5 本章问题
第13章 流式实时计算引擎
13.1 概述
13.2 Storm基础与实战
13.3 Spark Streaming基础与实战
13.4 流式计算引擎对比
13.5 小结
13.6 本章问题
第六部分 数据分析篇
第14章 数据分析语言HQL与SQL
14.1 概述
14.2 Hive架构
14.3 Spark SQL架构
14.4 HQL
14.5 小结
14.6 本章问题
第15章 大数据统一编程模型
15.1 产生背景
15.2 Apache Beam基本构成
15.3 Apache Beam编程模型
15.4 Apache Beam流式计算模型
15.5 Apache Beam编程实例
15.6 小结
15.7 本章问题
第16章 大数据机器学习库
16.1 机器学习库简介
16.2 MLLib机器学习库
16.3 小结
16.4 本章问题
第1章 企业级大数据技术体系概述
随着机构和企业积累的数据越来越多,大数据价值逐步体现出来。2015年国务院向社会公布了《促进大数据发展行动纲要》(以下简称《纲要》),正式将大数据提升为国家级战略。《纲要》明确提出了大数据的基本概念:大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。《纲要》提到大数据在推动经济转型发展,重塑国家竞争优势,以及提升政府治理能力等方面具有重要的意义,提出在信用、交通、医疗、卫生、金融、气象等众多领域发展大数据。
为了确保大数据思想顺利落地,在各个行业开花结果,需要掌握和利用大数据技术。本书正是从技术角度探讨了如何利用开源技术构建大数据解决方案,从而真正为政府和企业带来实用价值。
1.1 大数据系统产生背景及应用场景
1.1.1 产生背景
大数据技术直接源于互联网行业。随着互联网的蓬勃发展,用户量和数据量越来越多,逐步形成了大数据,这成为大数据技术的基础。根据有关技术报告知道,国内百度、腾讯和阿里巴巴等公司数据规模如下:
·2013年百度相关技术报告称,百度数据总量接近1000PB,网页的数量大是几千亿个,每年更新几十亿个,每天查询次数几十亿次。
·2013年腾讯相关技术报告称,腾讯约有8亿用户,4亿移动用户,总存储数据量经压缩处理以后在100PB左右,日新增200TB到300TB,月增加10%的数据量。
·2013年阿里巴巴相关技术报告称,总体数据量为100PB,每天的活跃数据量已经超过50TB,共有4亿条产品信息和2亿多名注册用户,每天访问超过4000万人次。
为了采集、存储和分析大数据,互联网公司尝试研发大数据技术,在众多技术方案中,开 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 大数据技术体系详解:原理、架构与实践 - (EPUB全文下载)