Spark MLlib机器学习实践(第2版) - (EPUB全文下载)
文件大小:0.25 mb。
文件格式:epub 格式。
书籍内容:
Spark MLlib机器学习实践(第2版)
第1章 星星之火
第2章 Spark安装和开发环境配置
第3章 RDD详解
第4章 MLlib基本概念
第5章 协同过滤算法
第6章 MLlib线性回归理论与实战
第7章 MLlib分类实战
第8章 决策树与保序回归
第9章 MLlib中聚类详解
第10章 MLlib中关联规则
第11章 数据降维
第12章 特征提取和转换
第13章 MLlib实战演练——鸢尾花分析
第1章星星之火
星星之火,可以燎原吗?
当我们每天面对扑面而来的海量数据,是战斗还是退却,是去挖掘其中蕴含的无限资源,还是就让它们自生自灭?我的答案是:“一切都取决于你自己”。对于海量而庞大的数据来说,在不同人眼里,既可以是一座亟待销毁的垃圾场,也可以是一个埋藏有无限珍宝的金银岛,这一切都取决于操控者的眼界与能力。本书的目的就是希望所有技术人员都有这种挖掘金矿的能力!
本章主要知识点:
什么是大数据?
数据要怎么分析?
MLlib能帮我们做些什么?
1.1 大数据时代
什么是“大数据”?一篇名为“互联网上一天”的文章告诉我们:
一天之中,互联网上产生的全部内容可以刻满1.68亿张DVD,发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量),发出的社区帖子达200万个(相当于《时代》杂志770年的文字量),卖出的手机数量为37.8万台,比全球每天出生的婴儿数量高出37.1万。
正如人们常说的一句话:“冰山只露出它的一角”。大数据也是如此,“人们看到的只是其露出水面的那一部分,而更多的则是隐藏在水面下”。随着时代的飞速发展,信息传播的速度越来越快,手段也日益繁多,数据的种类和格式也趋于复杂和丰富,并且在存储上已经突破了传统的结构化存储形式,向着非结构存储飞速发展。
大数据科学家JohnRauser提到一个简单的定义:“大数据就是任何超过了一台计算机处理能力的庞大数据量”。亚马逊网络服务(AWS)研发小组对大数据的定义:“大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。”Kelly说:“大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时也就是数据的极限”。
飞速产生的数据构建了大数据,海量数据的时代我们称为大数据时代。但是,简单地认为那些掌握了海量存储数据资料的人是大数据强者显然是不对的。真正的强者是那些能够挖掘出隐藏在海量数据背后获取其中所包含的巨量数据信息与内容的人,是那些掌握专门技能懂得怎样对数据进行有目的、有方向地处理的人。只有那些人,才能够挖掘出真正隐藏的宝库,拾取金山中的珍宝,从而实现数据的增值,实现大数据的为我所用。
1.2 大数据分析时代
随着“大数据时代”的到来,掌握一定的知识和技能,能够对大数据信息进行锤炼和提取越来越受到更多的数据分析人员所器重。可以说,大数据时代最重要的技能是掌握对大数据的分析能力。只有通过对大数据的分析,提炼出其中所包含的有价值内容才能够真正做到为我所用。换言之,如果把大数据比作一块沃土,那么只有强化对土地的“耕耘”能力,才能通过“加工”实现数据的“增值”。
一般来说,大数据分析需要涉及以下5个方面,如图1-1所示。
图1-1 大数据分析的5个方面
1.有效的数据质量
任何数据分析都来自于真实的数据基础,而一个真实数据是采用标准化的流程和工具对数据进行处理得到的,可以保证一个预先定义好的高质量的分析结果。
2.优秀的分析引擎
对于大数据来说,数据的来源多种多样,特别是非结构化数据来源的多样性给大数据分析带来了新的挑战。因此,我们需要一系列的工具去解析、提取、分析数据。大数据分析引擎就是用于从数据中提取我们所需要的信息。
3.合适的分析算法
采用合适的大数据分析算法能让我们深入数据内部挖掘价值。在算法的具体选择上,不仅仅要考虑能够处理的大数据的数量,还要考虑到对大数据处理的速度。
4.对未来的合理预测
数据分析的目的是对已有数据体现出来的规律进行总结,并且将现象与其他情况紧密连接在一起,从而获得对未来发展趋势的预测。大数据分析也是如此。不同的是,在大数据分析中,数据来源的基础更为广泛,需要处理的方面更多。
5.数据结果的可视化
大数据的分析结果更多是为决策者和普通用户提供决策支持和意见提示,其对较为深奥的数学含义不会太了解。因此必然要求数据的可视化能够直观地反映出经过分析后得到的信息与内容,能够较为容易地被使用者所理解和接受。
因此可以说,大数据分析是数据分析最前沿的技术。这种新的数据分析是目标导向的,不用关心数据的来源和具体格式,能够根据我们的需求去处理各种结构化、半结构化和非结构化的数据,配合使用合适的分析引擎,能够输出有效结果,提供一定的对未来趋势的预测分析服务,能够面向更广泛的用户快速部署数据分析应用。
1.3 简单、优雅、有效——这就是Spark
Apache Spark是加州大学伯克利分校的AMPLabs开发的开源分布式轻量级通用计算框架。与传统的数据分析框架相比,Spark在设计之初就是基于内存而设计,因此其比一般的数据分析框架有着更高的处理性能,并且对多种编程语言,例如Java、Scala及Python等提供编译支持,使得用户在使用传统的编程语言即可对其进行程序设计,从而使得用户的学习和维护能力大大提高。
简单、优雅、有效——这就是Spark!
Spark是一个简单的大数据处理框架,可以使程序设计人员和数据分析人员在不了解分布式底层细节的情况下,就像编写一个简单的数据处理程序一样对大数据进行分析计算。
Spark是一个优雅的数据处理程序,借助于Scala函数式编程语言,以前往往几百上千行的程序,这里只需短短几十行即可完成。Spark创新了数据获取和处理的理念,简化了编程过程,不再需要使用以往的建立索引来对数据分类,通过相应的表链接将需要的数据匹配成我们需要的格式。Spark没有臃肿,只有优雅。
Spark是一款有 ............
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » Spark MLlib机器学习实践(第2版) - (EPUB全文下载)