离线和实时大数据开发实战 - (EPUB全文下载)

文件大小:0.64 mb。
文件格式:epub 格式。
书籍内容:

大数据技术丛书
离线和实时大数据开发实战
朱松岭 著
ISBN:978-7-111-59678-3
本书纸版由机械工业出版社于2018年出版,电子版由华章分社(北京华章图文信息有限公司,北京奥维博世图书发行有限公司)全球范围内制作与发行。
版权所有,侵权必究
客服热线:+ 86-10-68995265
客服信箱:service@bbbvip.com
官方网址:www.hzmedia.com.cn
新浪微博 @华章数媒
微信公众号 华章电子书(微信号:hzebook)
目录
前言
第一篇 数据大图和数据平台大图
第1章 数据大图
1.1 数据流程
1.2 数据技术
1.3 数据相关从业者和角色
1.4 本章小结
第2章 数据平台大图
2.1 离线数据平台的架构、技术和设计
2.2 实时数据平台的架构、技术和设计
2.3 数据管理
2.4 本章小结
第二篇 离线数据开发:大数据开发的主战场
第3章 Hadoop原理实践
3.1 开启大数据时代的Hadoop
3.2 HDFS和MapReduce优缺点分析
3.3 HDFS和MapReduce基本架构
3.4 MapReduce内部原理实践
3.5 本章小结
第4章 Hive原理实践
4.1 离线大数据处理的主要技术:Hive
4.2 Hive SQL
4.3 Hive SQL执行原理图解
4.4 Hive函数
4.5 其他SQL on Hadoop技术
4.6 本章小结
第5章 Hive优化实践
5.1 离线数据处理的主要挑战:数据倾斜
5.2 Hive优化
5.3 join无关的优化
5.4 大表join小表优化
5.5 大表join大表优化
5.6 本章小结
第6章 维度建模技术实践
6.1 大数据建模的主要技术:维度建模
6.2 维度表设计
6.3 深入事实表
6.4 大数据的维度建模实践
6.5 本章小结
第7章 Hadoop数据仓库开发实战
7.1 业务需求
7.2 Hadoop数据仓库架构设计
7.3 Hadoop数据仓库规范设计
7.4 FutureRetailer数据仓库构建实践
7.5 数据平台新架构——数据湖
7.6 本章小结
第三篇 实时数据开发:大数据开发的未来
第8章 Storm流计算开发
8.1 流计算技术的鼻祖:Storm技术
8.2 Storm实时开发示例
8.3 Storm高级原语Trident
8.4 Storm关键技术
8.5 本章小结
第9章 Spark Streaming流计算开发
9.1 Spark生态和核心概念
9.2 Spark生态的流计算技术:Spark Streaming
9.3 Spark Streaming的实时开发示例
9.4 Spark Streaming调优实践
9.5 Spark Streaming关键技术
9.6 本章小结
第10章 Flink流计算开发
10.1 流计算技术新贵:Flink
10.2 Flink API
10.3 Flink实时开发示例
10.4 Flink关键技术详解
10.5 本章小结
第11章 Beam技术
11.1 意图一统流计算的Beam
11.2 Beam技术核心:Beam Model
11.3 Beam SDK
11.4 Beam窗口详解
11.5 本章小结
第12章 Stream SQL实时开发实战
12.1 流计算SQL原理和架构
12.2 流计算SQL:未来主要的实时开发技术
12.3 Stream SQL
12.4 Stream SQL的实时开发实战
12.5 撤回机制
12.6 本章小结
参考文献
前言
为什么要写这本书
念念不忘,终有回响。
撰写一本数据开发相关书的念头始于笔者学习数据知识的早期,当时笔者遍寻市面上所有的数据书籍,却没有发现一本系统化且从项目实践角度突出重点的数据开发书籍。
笔者非常理解某领域初学者的苦衷,对于他们来说,最重要的不是具体的API、安装教程等,而是先找到该领域的知识图谱,有了它,就可按图索骥,有针对性地去学。
对于大数据技术来说,上述需求更甚。一方面,由于社区、商业甚至个人原因,大数据的技术可以说是五花八门、琳琅满目,初学者非常容易不知所措,不知从哪里下手。另一方面,从理论上来说,互联网上几乎可以查到所有的大数据技术,比如在百度上搜索、问知乎,但这些都是碎片化的知识,不成体系,初学者需要先建立自己的大数据知识架构,再进一步深入。
本书正是基于这样的初衷撰写的,旨在帮助和加快初学者建立大数据开发领域知识图谱的过程,带领初学者更快地了解这片领域,而无须花更长的时间自己去摸索。
当然,未来是DT(Data Technology)时代,随着人工智能、大数据、云计算的崛起,未来数据将起到关键的作用,数据将成为如同水、电、煤一样的基础设施。但是,实际上目前数据的价值还远远没有得到充分的挖掘,如医疗数据、生物基因数据、交通物流数据、零售数据等。所以笔者非常希望本书能够对各个业务领域的业务分析人员、分析师、算法工程师等有所帮助,让他们更快地熟悉和掌握数据的加工处理知识与技巧,从而能够更好、更快地分析、挖掘和应用数据,让数据产生更多、更大的价值。
通过阅读本书,读者能建立自己的大数据开发知识体系和图谱,掌握数据开发的各种技术(包括有关概念、原理、架构以及实际的开发和优化技巧等),并能对实际项目中的数据开发提供指导和参考。
大数据技术日新月异,由于篇幅和时间限制,书中仅讲述了当前主要和主流的数据相关技术,如果读者对大数据开发有兴趣,本书将是首选的入门读物。
本书特色
本书从实际项目实践出发,专注、完整、系统化地讲述数据开发技术,此处的数据开发技术包括离线数据处理技术、实时数据处理技术、数据开发优化、大数据建模、数据分层体系建设等。
我们处于一个信息过度的时代,互联网涵盖了人类有史以来的所有知识,浩如烟海。对大数据开发技术来说,更是如此。那么,大数据相关人员如何吸收、消化、应用和扩展自己的技术知识?如何把握相关的大数据技术深度和广度?深入到何种程 ............

书籍插图:
书籍《离线和实时大数据开发实战》 - 插图1
书籍《离线和实时大数据开发实战》 - 插图2

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 离线和实时大数据开发实战 - (EPUB全文下载)