第1章 Apache Spark 是什么
一、概述
1. 定义
Apache Spark是一个统一的分布式内存计算引擎
2. 支持语言
Python Java Scala和R
3. 库
SQL结构化查询到流计算、机器学习
二、相关概念
1. 统一
Spark关键驱动目标是为编写大数据应用程序提供一个统一的平台。设计目的是支持广泛的数据分析任务,从简单的数据加载 —>SQL查询—>机器学习和流计算,这些都通过相同的计算引擎和一致的api集合实现。
这一目标背后的主要见解是,现实世界的数据分析任务——无论它们是工具中的交互式分析,还是用于生产应用程序的传统软件开发——都倾向于结合许多不同的处理引擎类型和库。
Spark的统一 特性使得这些任务的编写更加简单和有效。
Spark提供了一致的、可组合的api,可以使用这些api从较小的部分或现有的库中构建应用程序。然而,可组合的api是不够的。Spark的api也被设计为通过优化在用户程序中组合的不同库和函数来是实现高性能。
[Spark优化api的组合] 比如:使用SQL查询加载数据,然后使用Spark的ML库评机器学习模型,那么Spark计算引擎可以将这些步骤合并到一个 步骤中 ,来扫描数据。
在Spark之前,没有一个开源系统试图提供这种类型的统一引擎来进行并行数据处理,这意味着用户应用程序中需要整合多个api来完成一项任务。因此,Spark很快成为了这种类型开发的标准。
随着时间的推移,Spark继续扩展其内置的api,以覆盖更多的工作任务 。 与此同时,该项目的开发人员继续完善其统一引擎的主题。
2.计算引擎
有所为有所不为: Spark在打造一个统一平台的同时,它小心地将其范围限制在计算引擎上。
Spark处理从存储系统加载数据并在其上执行计算,但最终数据并不永久存储在Spark中
Spark可以和多种存储系统结合使用:Kafka、HBase、Hive、HDFS以及关系型数据库。
Spark如此设计的原因是:大多数数据已经存在于现有的存储系统中,数据移动成本非常昂贵,所以Spark关注于对数据进行计算。
Spark对计算的关注使得它有别于早期的大数据软件平台,如Apache Hadoop,Hadoop包括一个存储系统(Hadoop文件系统HDFS)和一个紧密集成的计算引擎(MapReduce),Hadoop这种设计在某些场景下会出现难以决择的问题,如:如果只使用计算引擎MapReduce,而不使用HDFS,此时无法割裂两者,只能同时安装。
尽管Spark在Hadoop存储上运行得很好,但今天它在没有Hadoop的环境中也广泛使用。如Spark+kafka联合起来,进行流处理。
3.函数库
Spark的最终组件是它的库,它以统一引擎的设计为基础,为公共数据分析任务提供统一的API。Spark既支持使用内置的标准库(主要部分),也支持由开源社区发布为第三方包的大量外部库。
Spark 核心计算引擎自发布以来几乎没有变化, 但是,函数库已经提供了越来越多的功能类型。Spark包括用于SQL和结构化数据的库(Spark SQL)、机器学习(MLlib)、流处理(Spark流和新的结构化流处理Structured Streaming)和图形分析(GraphX)。
除了这些库之外,还有数百个开放源代码的外部库,从各种存储系统的连接器到机器学习算法。在spark-packages.org上有一个外部库索引。
三、Spark产生的背景:大数据问题
为什么需要一个新的引擎和编程模型来进行数据分析?类似于计算机的很多趋势,这是由于计算机应用程序和硬件构成的经济因素发生了变化。
处理器速度提升,可以在不改动代码的情况下,使应用程序自动的变快。然而,2005年左右这种趋势停止了(由于散热方面的严格限制,硬件开发人员停止让单个处理器的速度更快,转而使用相同的速度增加更多的并行CPU内核)。 这种变化意味着需要修改应用程序以增加并行性,以便更快地运行,这为新的编程模型(如Apache Spark)创造了舞台
与此同时,存储成本也在下降,可以获得的数据量在增加,如随着互联网的发展,视频数据、图像数据随处可见。最终结果是,搜集了大数据量的内容,处理这些内容需要大的、并行度高的计算引擎,通常需要运行在集群之上。
此外,过去50年开发的软件不能自动伸缩,传统的数据处理程序的编程模型也不能满足新的编程模型的需求。
四、Spark的现在和未来
Spark已经存在了许多年,仍然是当前最流行的大数据计算框架,使用Spark的公司和项目都在不断增加。Spark本身也在不断改进,新功能不断增加,例如,2016年引入了一种新的高级流处理引擎,即Structured Streaming结构化流处理。
Spark将继续成为在可预见的未来进行大数据分析的公司的基石,尤其是考虑到该项目仍在快速发展。任何需要解决大数据问题的数据科学家或工程师都可能需要在他们的机器上安装一个Spark。
五、运行Spark
可以使用Python、Java、Scala、R或SQL与Spark进行交互。Spark本身是用Scala编写的,并在Java虚拟机(JVM)上运行,因此在笔记本或集群上运行Spark,所需要的只是安装Java环境。如果想要使用Python API,还需要一个Python解释器(版本2.7或更高版本)。如果想使用R,需要在机器上安装R语言环境。
有两种选择,我们建议开始使用Spark: 在笔记本电脑上下载并安装Apache Spark。或者在Databricks Community Edition中运行基于web的版本,这是一个学习Spark的免费云环境,其中包含了本书中的代码。我们接下来解释这两个选项。
1. 下载spark到本地
第一步是确保您的机器上安装了Java(可用Java),以及Python版本,如果您想使用Python的话。
接着,打开Spark官方网站http://spark.apache.org/downloads.html
选择安装包的版本和类型”Pre-built for Hadoop 2.7 and later”,然后点击下载链接。
此时会下载一压缩包文件,需要加压它。这本书的大部分是用Spark 2.2编写的,所以下载版本2.2或以后应该是一个很好的起点
1.为Hadoop集群下载对应的Spark
Spark可以在本地运行,不需要任何分布式存储系统,比如Apache Hadoop。但是,如果您想将您的笔记本上的Spark版本连接到Hadoop集群,请确保您下载了该Hadoop版本对应的Spark版本。我们在后面的章节中讨论了Spark是如何在集群和Hadoop文件系统上运行的,但是现在我们建议在您的笔记本上运行Spark。
2. 从源代码构建Spark
我们不会在书中介绍这一点,但是您也可以从源代码构建和配置Spark。您可以在ApacheSpark下载页面上选择一个源代码包,以获取源代码,并按照README文件中的说明进行构建。在您下载了Spark之后,您将希望打开一个命令行提示符并提取该包。在我们的例子中,我们安装了Spark 2.2。下面是一个代码片段,您可以在任何unix风格的命令行上运行,以解压缩从Spark下载的文件并进入解压后的目录:
cd~/Downloads
tar-xfspark-2.2.0-bin-hadoop2.7.tgz
cdspark-2.2.0-bin-hadoop2.7.tgz
注意,Spark在项目中有大量的目录和文件。不要被吓倒!这些目录中的大多数只有在您阅读源代码时才有意义。下一节将讨论最重要的方向——让我们启动Spark的控制台以进行交互使用。
2. 启动 Spark交互式控制台
您可以在Spark中为几种不同的编程语言启动交互式shell。本书的大部分内容是用Python、Scala和SQL编写的;因此,这些是我们推荐的出发点
1.启动Python控制台
为了启动Python控制台,您需要安装Python 2或3。从Spark的主目录,运行以下代码:
./bin/pyspark
完成之后,输入“spark”并按Enter键。您将看到打印的SparkSession对象,我们将在第2章中介绍它
2. 启动Scala控制台
./bin/spark-shell
完成之后,输入“spark”并按Enter键。与在Python控制台中看到的一样,您将看到SparkSession对象,我们将在第2章中介绍它。
3. 启动SQL控制台
本书的部分内容将涵盖大量的Spark SQL。对于那些,您可能想要启动SQL控制台。在我们讨论了这些主题之后,我们将重新讨论一些更相关的细节。
./bin/spark-sql
4. 在本书中使用的数据
在本书中,我们将使用一些数据源作为示例。如果您想在本地运行代码,可以从本书的官方代码库中下载这些代码。简而言之,您将下载数据,将其放入一个文件夹中,然后在本书中运行代码片段!