Spark Cookbook 中文版 - (EPUB全文下载)

文件大小:0.22 mb。
文件格式:epub 格式。
书籍内容:

Spark Cookbook 中文版
第1章 开始使用Apache Spark
第2章 使用Spark开发应用
第3章 外部数据源
第4章 Spark SQL
第5章 Spark Streaming
第6章 机器学习——MLlib
第7章 监督学习之回归——MLlib
第8章 监督学习之分类——MLlib
第9章 无监督学习——MLlib
第10章 推荐系统
第11章 图像处理——GraphX
第12章 优化及调优
欢迎来到异步社区!
看完了
第1章 开始使用Apache Spark
在本章中,我们将介绍安装和配置Spark,包括如下内容。
通过二进制可执行文件安装Spark。
通过Maven构建Spark源码。
在Amazon EC2上安装Spark。
在集群上以独立模式部署Spark。
在集群上使用Mesos部署Spark。
在集群上使用YARN部署Spark。
使用Tachyon作为堆外存储层。
1.1 简介
Apache Spark是一个用于处理大数据工作流的多功能集群计算系统。Spark在速度、易用性以及分析能力上都强于它的前辈们(如MapReduce)。
Apache Spark最初在2009年,由加州大学伯克利分校的AMPLab实验室研发,在2010年按照BSD协议实现开源,并在2013年转为Apache 2.0协议。到2013年下半年,Spark的创始人建立了Databricks,专注于Spark的研发和未来的公开发行。
谈到速度,Spark大数据工作流的处理可以达到亚秒级别的延迟。为了达到如此低的延迟,Spark充分利用了内存。在MapReduce中,内存仅仅用于实际计算,而Spark不仅使用内存进行计算,而且还用于存储对象。
Spark也提供一个连接各种大数据存储源的统一运行时接口,例如HDFS、Cassandra、Hbase和S3。它同时也提供大量的用于不同的大数据计算任务的顶层库,例如机器学习、SQL处理、图像处理以及实时数据流。这些库加快了开发速度,可以任意组合。
虽然Spark是用Scala所写,本书也只关注Scala部分的教程,但是Spark也支持Java和Python语言。
Spark是一个开源社区产品,每个人都是用Apache纯开源分布部署,不像Hadoop,有大量开发商改进的分布部署。
图1-1展示了Spark的生态圈。
图1-1 Spark生态圈
Spark运行时运行在一系列集群管理器的基础之上,包括YARN(Hadoop的计算框架)、Mesos以及Spark自己的被称为独立模式的集群管理器。Tachyon是一个内存层的分布式文件系统,使得集群架构之间的文件共享速度能够可靠到达内存级别。(译注:Tachyon现已更名为alluxio,官网地址:www.alluxio.org。本书的其他部分仍会按照原文写作Tachyon,后续不再赘述。)简而言之,它是内存上的一个堆外存储层,用于在任务和用户之间分享数据。Mesos 是一个涉及数据中心处理系统的集群管理器。YARN是一个有着健壮的资源管理特性的Hadoop计算框架,Spark可以与它无缝连接使用。
1.2 使用二进制文件安装Spark
Spark既可以通过源码安装也可以通过预编译二进制安装,下载地址为http://spark.apache.org。对于标准使用场景来说,二进制安装已经足够了,这里将主要介绍通过二进制文件安装Spark。
1.2.1 准备工作
本书的所有教程都是适用于Ubuntu Linux系统的,不过应该也适用于任何POSIX环境。在安装Spark之前,首先需要安装好Java,并且配置好JAVA_HOME环境变量。
在Linux/Unix系统中,文件和目录的位置是有特定标准的,本书中也同样遵从这些标准,表1-1是一张速查表。
表1-1  速查表
目录
描述
/bin
基本命令二进制文件
/etc
主机特定系统配置
/opt
附加应用软件包
/var
变量
/tmp
临时文件
/home
用户主目录
1.2.2 具体步骤
在写作本书时,Spark的当前版本是1.4。请从Spark下载页面http://spark.apache.org/downloads.html查阅最新版本。二进制安装包是使用最新最稳定的Hadoop版本。如果想使用特定的Hadoop版本,推荐使用源码构建,具体请参考下一份教程。
安装步骤如下所示。
1.打开终端,使用如下命令下载二进制安装包。
$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0-bin-
hadoop2.4.tgz
2.解压二进制安装包。
$ tar -zxf spark-1.4.0-bin-hadoop2.4.tgz
3.重命名包含二进制安装包的文件夹,去除版本信息。
$ sudo mv spark-1.4.0-bin-hadoop2.4 spark
4.把配置文件夹移动到/etc文件夹下,以便之后制作软链接。
$ sudo mv spark/conf/ * /etc/spark
5.在/opt目录下新建一个公司名限定的安装目录。本书的本篇教程是使用infoobjects沙盒测试的,所以我们就用infoobjects做目录名。创建目录/opt/infoobjects。
$ sudo mkdir -p /opt/infoobjects
6.把spark目录移动到/opt/infoobjects,因为spark是一个附加软件包。
$ sudo mv spark /opt/infoobjects/
7.设置root为spark主目录的权限用户。
$ sudo chown -R root:root /opt/infoobjects/spark
8.修改spark主目录的权限,0755意味着主用户将拥有读写和执行权 ............

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » Spark Cookbook 中文版 - (EPUB全文下载)