Cloudera Hadoop大数据平台实战指南 - (EPUB全文下载)
文件大小:0.19 mb。
文件格式:epub 格式。
书籍内容:
Cloudera Hadoop大数据平台实战指南
第1章 大数据概述
第2章 Cloudera大数据平台介绍
第3章 Cloudera Manager及CDH离线安装部署
第4章 分布式文件系统HDFS
第5章 分布式计算框架MapReduce
第6章 资源管理调度框架YARN
第7章 数据仓库Hive
第8章 数据迁移工具Sqoop
第9章 分布式数据库HBase
第10章 分布式协调服务ZooKeeper
第11章 准实时分析系统Impala
第12章 日志采集工具Flume
第13章 分布式消息系统Kafka
第14章 大数据ETL工具Kettle
第15章 大规模数据处理计算引擎Spark
第16章 大数据全栈式开发语言Python
第17章 大数据实战案例:实时数据流处理项目
第18章 大数据实战案例:用户日志综合分析项目
第1章 大数据概述
在信息传播极其迅速的今天,各种数据渗透我们的生活,并以指数级的速度增长。数据爆炸将我们带入大数据时代,大数据已经蔓延到社会的各行各业,从而影响着我们的学习、工作、生活以及社会的发展,因此大数据的相关研究受到中央和地方政府、各大科研机构和各类企业的高度关注。
最早提出“大数据时代到来”的是全球顶级管理咨询公司麦肯锡。麦肯锡宣称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
真正把大数据推向公众视野的是牛津大学教授维克托。他潜心研究大数据10年,成为最早洞见大数据时代发展趋势的科学家之一,他的《大数据时代》专著是国际大数据研究先河之作。维克托思维的深邃之处在于,他明确指出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。
1.1 大数据时代的数据特点
在2015年贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会(以下简称“数博会”)上,阿里巴巴董事局主席马云发表主题演讲。马云在数博会上系统阐述了“DT(Data Technology,数据技术)时代”的特点,DT时代把机器变成人,而这也将改变制造业的局面,释放更多企业的活力——“未来的制造业要的不是石油,它最大的能源是数据”。
凭智商做判断过时了,未来拼的是大数据,那么何为大数据呢?一般认为,大数据主要具有四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value),即所谓的“4V”。
(1)规模性,即大数据具有相当的规模,其数据量非常巨大。淘宝网近4亿的会员每天产生的商品交易数据约20TB,Facebook(脸书)约10亿的用户每天产生的日志数据超过300TB。数据的数量级别可划分为B、KB、MB、GB、TB、PB、EB、ZB等,而数据的数量级别为PB级别的才能称得上是大数据。根据IDC公司的最新研究,未来10年,全球的数据总量将会增长50倍,以此推算,数据产生的速度越来越快,而且数据总量将呈现指数型的爆炸式增长。
(2)多样性,即大数据的数据类型呈现多样性。数据类型繁多,不仅包括结构化数据,还包括非结构化数据和半结构化数据。其中,结构化数据即音频、图片、文本、视频、网络日志、地理位置信息等。传统的数据处理对象基本上都是结构化数据,而在现实中非结构化数据也是大量存在的,所以既要分析结构化数据又要分析非结构化数据才能满足人们对数据处理的要求。
(3)高速性,即处理大数据的速度越来越快,处理时要求具有时效性,因为数据和信息更新速度非常快,信息价值存在的时间非常短,必须要求在极短的时间下在海量规模的大数据中摒除无用的信息来搜集具有价值和能够利用的信息。所以随着大数据时代的到来,搜集和提取具有价值的数据和信息必须要求高效性和短时性。
(4)价值性。从大数据的表面数据进行分析,进而得到大数据背后重要的有价值的信息,最后可以精确地理解数据背后所隐藏的现实意义。
大数据的价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
1.2 大数据时代的发展趋势——数据将成为资产
长期以来,困扰企业最大的难题就是“如何更了解他的客户”。传统企业衰落的根本原因在于难以贴近消费者,难以了解消费者的真正需求。互联网公司的强项恰恰是天然地贴近消费者、了解消费者。企业需要花大力气真正研究消费者的数据,这样才能了解消费者,才能将数据资产化,将数据变现。
创建“如家”经济型连锁酒店的创始人季琦也是因为数据变现的。2001年,携程网的一位网友在网上发了个帖子,抱怨说在携程上预订宾馆的价格有点小贵。这引起了季琦的注意,他对携程网上的订房数据情况做了分析,发现客房价格比较便宜的经济型连锁酒店卖得特别好。经过深入的市场调研,季琦发现,相当数量的业务出差人员为企业中、低职位员工,出差补贴都有一定额度,通常一天吃住总额在二三百元上下;另外,假日期间,为数众多的散客旅游也偏向于选择物美价廉的居住场所,舒适享受退居次要地位,简洁干净成为首要条件。季琦马上抓住了这个创业机会,利用携程庞大的订房网络、运营能力,搞经济型酒店连锁经营。2002年,季琦创办了“如家”经济型连锁酒店,并很快保持高利润率。他后来离开“如家”创办“华住汉庭”,也有不少大数据优化运营的影子。
今后企业的竞争,将是拥有数据规模和活性的竞争,将是对数据解释和运用的竞争。最直接的例子来自阿里平台,尤其是曾经创下“巨大声誉”的阿里询盘指数。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值。统计历史上所有买家、卖家的询价和成交的数据,可以形成询盘指数和成交指数。这两个指数是强相关的。询盘指数是前兆性的,前期询盘指数活跃,就会保证后期一定的成交量。当询盘指数异乎寻常地下降时就要引 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Cloudera Hadoop大数据平台实战指南 - (EPUB全文下载)