离线和实时大数据开发实战 - (EPUB全文下载)
文件大小:0.57 mb。
文件格式:epub 格式。
书籍内容:
离线和实时大数据开发实战
第1章 数据大图
1.1 数据流程
1.2 数据技术
1.3 数据相关从业者和角色
1.4 本章小结
第2章 数据平台大图
2.1 离线数据平台的架构、技术和设计
2.2 实时数据平台的架构、技术和设计
2.3 数据管理
2.4 本章小结
第二篇 离线数据开发:大数据开发的主战场
第3章 Hadoop原理实践
3.1 开启大数据时代的Hadoop
3.2 HDFS和MapReduce优缺点分析
3.3 HDFS和MapReduce基本架构
3.4 MapReduce内部原理实践
3.5 本章小结
第4章 Hive原理实践
4.1 离线大数据处理的主要技术:Hive
4.2 Hive SQL
4.3 Hive SQL执行原理图解
4.4 Hive函数
4.5 其他SQL on Hadoop技术
4.6 本章小结
第5章 Hive优化实践
5.1 离线数据处理的主要挑战:数据倾斜
5.2 Hive优化
5.3 join无关的优化
5.4 大表join小表优化
5.5 大表join大表优化
5.6 本章小结
第6章 维度建模技术实践
6.1 大数据建模的主要技术:维度建模
6.2 维度表设计
6.3 深入事实表
6.4 大数据的维度建模实践
6.5 本章小结
第7章 Hadoop数据仓库开发实战
7.1 业务需求
7.2 Hadoop数据仓库架构设计
7.3 Hadoop数据仓库规范设计
7.4 FutureRetailer数据仓库构建实践
7.5 数据平台新架构——数据湖
7.6 本章小结
第三篇 实时数据开发:大数据开发的未来
第8章 Storm流计算开发
8.1 流计算技术的鼻祖:Storm技术
8.2 Storm实时开发示例
8.3 Storm高级原语Trident
8.4 Storm关键技术
8.5 本章小结
第9章 Spark Streaming流计算开发
9.1 Spark生态和核心概念
9.2 Spark生态的流计算技术:Spark Streaming
9.3 Spark Streaming的实时开发示例
9.4 Spark Streaming调优实践
9.5 Spark Streaming关键技术
9.6 本章小结
第10章 Flink流计算开发
10.1 流计算技术新贵:Flink
10.2 Flink API
10.3 Flink实时开发示例
10.4 Flink关键技术详解
10.5 本章小结
第11章 Beam技术
11.1 意图一统流计算的Beam
11.2 Beam技术核心:Beam Model
11.3 Beam SDK
11.4 Beam窗口详解
11.5 本章小结
第12章 Stream SQL实时开发实战
12.1 流计算SQL原理和架构
12.2 流计算SQL:未来主要的实时开发技术
12.3 Stream SQL
12.4 Stream SQL的实时开发实战
12.5 撤回机制
12.6 本章小结
参考文献
第1章 数据大图
数据是原油,数据是生产资料,数据和技术驱动,人类正从IT时代走向DT时代,随着数据的战略性日渐得到认可,越来越多的公司、机构和组织,尤其是互联网公司,纷纷搭建了自己的数据平台。不管是基于开源技术自研、自建还是购买成熟的商业解决方案,不管是在私有的数据中心还是在公有云端,不管是自建团队还是服务外包,一个个数据平台纷纷被搭建,这些数据平台不但物理上承载了所有的数据资产,也成为数据开发工程师、数据分析师、算法工程师、业务分析人员和其他相关数据人员日常的工作平台和环境,可以说数据平台是一个公司、机构或组织内“看”数据和“用数据”的关键基础设施,已经像水电煤一样不可或缺,正是它们的存在才使得数据变现成为可能。
数据从产生到进入数据平台中被消费和使用,包含四大主要过程:数据产生、数据采集和传输、数据存储和管理以及数据应用,每个过程都需要很多相关数据技术支撑。了解这些关键环节和过程以及支撑它们的关键技术,对一个数据从业者来说,是基本的素养要求。因此本章首先对数据流程以及相应的主要数据技术进行介绍。
同时,本章也将介绍数据的主要从业者,包括平台开发运维工程师、数据开发工程师、数据分析师、算法工程师等,并对他们的基本工作职责和日常工作内容等进行介绍,使读者对数据相关的职位有基本的认识和了解。
1.1 数据流程
不管是时髦的大数据还是之前传统的数据仓库,不管是目前应用最为广泛的离线数据还是越来越得到重视的实时数据,其端到端流程都包含:数据产生、数据采集和传输、数据存储处理、数据应用四大过程,具体的数据流程图及其包含的关键环节如图1-1所示。
图1-1 数据流程大图
下面详述图1-1所示的各个关键关节。
1.1.1 数据产生
数据产生是数据平台的源头,没有数据,所谓的大数据也无从谈起。所以首先要保证有数据。
随着近年来互联网和移动互联网的蓬勃发展,数据已经无处不在,毫无疑问,这是一个数据和信息爆炸的时代。所以,即使一个企业和个人没有数据,通过爬虫工具和系统的帮助,也可以从互联网上爬取到各种各样的公开数据。但是更多的、高质量的数据是爬取不到的,这些数据存在于各个公司、企业、政府机关和机构的系统内部。
1.数据分类
根据源头系统的类型不同,我们可以把数据产生的来源分为以下几种。
(1)业务系统
业务系统指的是企业核心业务的或者企业内部人员使用的、保证企业正常运转的IT系统,比如超市的POS销售系统、订单/库存/供应链管理的ERP系统、客户关系管理的CRM系统、财务系统、各种行政系统等。不管何种系统,后台的数据一般都存在后台数据库内。早期的大部分数据主要来源于这些业务系统的数据库,管理人员和业务运营人员查看的数据报表等基本来源于此。即便是目前,企业的业务系统依然是大部分公司数据平台的主要数据来源,业务系统的数据通常是格式化和高质量的。
(2)Web系统
随着互联网的发展,很多系统都变成了Web系统,即互联网或者局域网范围内通过浏览器就可以访问,而不是必 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 离线和实时大数据开发实战 - (EPUB全文下载)