基于Apache Kylin构建大数据分析平台 - (EPUB全文下载)
文件大小:0.34 mb。
文件格式:epub 格式。
书籍内容:
基于Apache Kylin构建大数据分析平台
第1章 Apache Kylin前世今生
第2章 Apache Kylin前奏
第3章 Apache Kylin工作原理和体系架构
第4章 搭建CDH大数据平台
第5章 使用Kylin构建企业大数据分析平台的4种部署方式
第6章 单独为Kylin部署HBase集群
第7章 部署Kylin集群环境
第二部分 Apache Kylin进阶部分
第8章 Demo案例实战
第9章 多维分析的Cube创建实战
第10章 Build Cube的来龙去脉
第三部分 Apache Kylin高级部分
第11章 Cube优化
第12章 备份Kylin的Metadata
第13章 使用Hive视图
第14章 Kylin的垃圾清理
第15章 JDBC访问方式
第16章 通过RESTful访问Kylin
第17章 Kylin版本之间升级
第18章 大数据可视化实践
第19章 使用Streaming Table构建准实时Cube
第20章 快速数据立方算法
第四部分 Apache Kylin的扩展部分
第21章 大数据智能分析平台KAP
第1章 Apache Kylin前世今生
1.1 Apache Kylin的背景
在现在的大数据时代,Hadoop已经成为大数据事实上的标准规范,一大批工具陆陆续续围绕Hadoop平台来构建,用来解决不同场景下的需求。
比如Hive是基于Hadoop的一个用来做企业数据仓库的工具,可以将存储在HDFS分布式文件系统上的数据文件映射为一张数据库表,并提供SQL查询功能,Hive执行引擎可以将SQL转换为MapReduce任务来进行运行,非常适合数据仓库的数据分析。
再比如HBase是基于Hadoop,实现高可用性、高性能、面向列、可伸缩的分布式存储系统,Hadoop架构中的HDFS为HBase提供了高可靠性的底层存储支持。
但是缺少一个基于Hadoop的分布式分析引擎,虽然目前存在业务分析工具,如Tableau等,但是它们往往存在很大的局限,比如难以水平扩展、无法处理超大规模数据,同时也缺少Hadoop的支持。此外,Hadoop以及相关大数据技术的出现提供了一个几近无限扩展的数据平台,在相关技术的支持下,各个应用的数据已突破了传统OLAP所能支持的容量上界。每天千万、数亿条的数据,提供若干维度的分析模型,大数据OLAP最迫切所要解决的问题就是大量实时运算导致的响应时间迟滞。
Apache Kylin(中文:麒麟)的出现,能够基于Hadoop很好地解决上面的问题。Apache Kylin是一个开源的分布式存储引擎,最初由eBay开发贡献至开源社区。它提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发。
1.2 Apache Kylin的应用场景
(1)假如你的数据存在于Hadoop的HDFS分布式文件系统中,并且你使用Hive来基于HDFS构建数据仓库系统,并进行数据分析,但是数据量巨大,比如PB级别。
(2)同时你的Hadoop平台也使用HBase来进行数据存储和利用HBase的行键实现数据的快速查询等应用。
(3)你的Hadoop平台的数据量逐日累增。
(4)对于数据分析的维度大概10个左右。
如果你的应用类似上面,那么非常适合采用Apache Kylin来做大数据量的多维数据分析。
Apache Kylin的核心思想是利用空间换时间,将计算好的多维数据结果存入HBase,实现数据的快速查询。同时,由于Apache Kylin在查询方面制定了多种灵活的策略,进一步提高空间的利用率,使得这样的平衡策略在应用中值得采用。
1.3 Apache Kylin的发展历程
Apache Kylin于2014年10月在github开源,并很快在2014年11月加入Apache孵化器,2015年9月,Apache Kylin与Spark、HBase、Kafka等并列荣膺InfoWorld 2015年Bossie最佳开源大数据工具奖。这也是国人项目第一次获得该国际大奖,于2015年11月正式毕业,成为Apache顶级项目,也成为首个完全由中国团队设计开发的Apache顶级项目,如图1-1所示。
图1-1
Apache Kylin在大数据分析领域应用广泛,获得了快速的推广。国内外一线的互联网、金融、电信等公司越来越多地采用Apache Kylin作为其大数据分析平台。
Apache Kylin的官网为http://kylin.apache.org,如图1-2所示。
图1-2
于2016年3月,Apache Kylin核心开发成员在上海创建Kyligence公司,Kyligence是一家专注于大数据分析领域创新的数据科技公司,致力于为用户提供基于Apache Kylin的智能分析平台及产品,提供领先的企业级商业分析解决方案,以使用户在超大规模数据集上获取极速的洞见能力,驱动业务增长。Kyligence也是首家在国内由Apache顶级项目核心贡献者团队组建的创业公司,公司将致力于进一步推动Apache Kylin开源项目的发展和演进,提供基于Apache Kylin的大数据分析产品和服务,拓展全球用户社区,构建更为丰富的生态系统。
公司官网为http://kysligence.io,如图1-3所示。
图1-3
为了获取更好的发展,2016年4月,大数据公司Kyligence跬智科技宣布获得了数百万美元的天使轮投资。
Kyligence于2016年8月3日,在北京宣布正式发布其企业级大数据智能分析平台KAP(Kyligence Analytics Platform),该平台是基于Apache软件基金会顶级项目Apache Kylin实现的、为可伸缩数据集提供分析能力的企业级大数据产品,在Apache Hadoop上为百亿及以上超大规模数据集提供亚秒级标准SQL查询能力 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 基于Apache Kylin构建大数据分析平台 - (EPUB全文下载)