第一章 Apache Spark是什么

第1章 Apache Spark 是什么

一、概述

1. 定义

Apache Spark是一个统一的分布式内存计算引擎

2. 支持语言

Python Java Scala和R

3. 库

SQL结构化查询到流计算、机器学习

提供给最终用户的所有组件和库

二、相关概念

1. 统一

Spark关键驱动目标是为编写大数据应用程序提供一个统一的平台。设计目的是支持广泛的数据分析任务,从简单的数据加载 —>SQL查询—>机器学习和流计算,这些都通过相同的计算引擎一致的api集合实现。

这一目标背后的主要见解是,现实世界的数据分析任务——无论它们是工具中的交互式分析,还是用于生产应用程序的传统软件开发——都倾向于结合许多不同的处理引擎类型和库。

Spark的统一 特性使得这些任务的编写更加简单和有效。

Spark提供了一致的、可组合的api,可以使用这些api从较小的部分或现有的库中构建应用程序。然而,可组合的api是不够的。Spark的api也被设计为通过优化在用户程序中组合的不同库和函数来是实现高性能。

[​Spark优化api的组合] 比如:使用SQL查询加载数据,然后使用Spark的ML库评机器学习模型,那么Spark计算引擎可以将这些步骤合并到一个 步骤中 ,来扫描数据。

在Spark之前,没有一个开源系统试图提供这种类型的统一引擎来进行并行数据处理,这意味着用户应用程序中需要整合多个api来完成一项任务。因此,Spark很快成为了这种类型开发的标准。

随着时间的推移,Spark继续扩展其内置的api,以覆盖更多的工作任务 。 与此同时,该项目的开发人员继续完善其统一引擎的主题。

2.计算引擎

有所为有所不为: Spark在打造一个统一平台的同时,它小心地将其范围限制在计算引擎上。

Spark处理从存储系统加载数据并在其上执行计算,但最终数据并不永久存储在Spark中

Spark可以和多种存储系统结合使用:Kafka、HBase、Hive、HDFS以及关系型数据库。

Spark如此设计的原因是:大多数数据已经存在于现有的存储系统中,数据移动成本非常昂贵,所以Spark关注于对数据进行计算。

Spark对计算的关注使得它有别于早期的大数据软件平台,如Apache Hadoop,Hadoop包括一个存储系统(Hadoop文件系统HDFS)和一个紧密集成的计算引擎(MapReduce),Hadoop这种设计在某些场景下会出现难以决择的问题,如:如果只使用计算引擎MapReduce,而不使用HDFS,此时无法割裂两者,只能同时安装。

尽管Spark在Hadoop存储上运行得很好,但今天它在没有Hadoop的环境中也广泛使用。如Spark+kafka联合起来,进行流处理。

3.函数库

Spark的最终组件是它的库,它以统一引擎的设计为基础,为公共数据分析任务提供统一的API。Spark既支持使用内置的标准库(主要部分),也支持由开源社区发布为第三方包的大量外部库。

Spark 核心计算引擎自发布以来几乎没有变化, 但是,函数库已经提供了越来越多的功能类型。Spark包括用于SQL和结构化数据的库(Spark SQL)、机器学习(MLlib)、流处理(Spark流和新的结构化流处理Structured Streaming)和图形分析(GraphX)。

除了这些库之外,还有数百个开放源代码的外部库,从各种存储系统的连接器到机器学习算法。在spark-packages.org上有一个外部库索引。

三、Spark产生的背景:大数据问题

为什么需要一个新的引擎和编程模型来进行数据分析?类似于计算机的很多趋势,这是由于计算机应用程序和硬件构成的经济因素发生了变化。

处理器速度提升,可以在不改动代码的情况下,使应用程序自动的变快。然而,2005年左右这种趋势停止了(由于散热方面的严格限制,硬件开发人员停止让单个处理器的速度更快,转而使用相同的速度增加更多的并行CPU内核)。 这种变化意味着需要修改应用程序以增加并行性,以便更快地运行,这为新的编程模型(如Apache Spark)创造了舞台

与此同时,存储成本也在下降,可以获得的数据量在增加,如随着互联网的发展,视频数据、图像数据随处可见。最终结果是,搜集了大数据量的内容,处理这些内容需要大的、并行度高的计算引擎,通常需要运行在集群之上。

此外,过去50年开发的软件不能自动伸缩,传统的数据处理程序的编程模型也不能满足新的编程模型的需求。

四、Spark的现在和未来

Spark已经存在了许多年,仍然是当前最流行的大数据计算框架,使用Spark的公司和项目都在不断增加。Spark本身也在不断改进,新功能不断增加,例如,2016年引入了一种新的高级流处理引擎,即Structured Streaming结构化流处理。

Spark将继续成为在可预见的未来进行大数据分析的公司的基石,尤其是考虑到该项目仍在快速发展。任何需要解决大数据问题的数据科学家或工程师都可能需要在他们的机器上安装一个Spark。

五、运行Spark

可以使用Python、Java、Scala、R或SQL与Spark进行交互。Spark本身是用Scala编写的,并在Java虚拟机(JVM)上运行,因此在笔记本或集群上运行Spark,所需要的只是安装Java环境。如果想要使用Python API,还需要一个Python解释器(版本2.7或更高版本)。如果想使用R,需要在机器上安装R语言环境。

有两种选择,我们建议开始使用Spark: 在笔记本电脑上下载并安装Apache Spark。或者在Databricks Community Edition中运行基于web的版本,这是一个学习Spark的免费云环境,其中包含了本书中的代码。我们接下来解释这两个选项。

1. 下载spark到本地

第一步是确保您的机器上安装了Java(可用Java),以及Python版本,如果您想使用Python的话。

接着,打开Spark官方网站http://spark.apache.org/downloads.html

选择安装包的版本和类型”Pre-built for Hadoop 2.7 and later”,然后点击下载链接。

此时会下载一压缩包文件,需要加压它。这本书的大部分是用Spark 2.2编写的,所以下载版本2.2或以后应该是一个很好的起点

1.为Hadoop集群下载对应的Spark

Spark可以在本地运行,不需要任何分布式存储系统,比如Apache Hadoop。但是,如果您想将您的笔记本上的Spark版本连接到Hadoop集群,请确保您下载了该Hadoop版本对应的Spark版本。我们在后面的章节中讨论了Spark是如何在集群和Hadoop文件系统上运行的,但是现在我们建议在您的笔记本上运行Spark。

2. 从源代码构建Spark

我们不会在书中介绍这一点,但是您也可以从源代码构建和配置Spark。您可以在ApacheSpark下载页面上选择一个源代码包,以获取源代码,并按照README文件中的说明进行构建。在您下载了Spark之后,您将希望打开一个命令行提示符并提取该包。在我们的例子中,我们安装了Spark 2.2。下面是一个代码片段,您可以在任何unix风格的命令行上运行,以解压缩从Spark下载的文件并进入解压后的目录:

cd~/Downloads

tar-xfspark-2.2.0-bin-hadoop2.7.tgz

cdspark-2.2.0-bin-hadoop2.7.tgz

注意,Spark在项目中有大量的目录和文件。不要被吓倒!这些目录中的大多数只有在您阅读源代码时才有意义。下一节将讨论最重要的方向——让我们启动Spark的控制台以进行交互使用。

2. 启动 Spark交互式控制台

您可以在Spark中为几种不同的编程语言启动交互式shell。本书的大部分内容是用Python、Scala和SQL编写的;因此,这些是我们推荐的出发点

1.启动Python控制台

为了启动Python控制台,您需要安装Python 2或3。从Spark的主目录,运行以下代码:

./bin/pyspark

完成之后,输入“spark”并按Enter键。您将看到打印的SparkSession对象,我们将在第2章中介绍它

2. 启动Scala控制台

./bin/spark-shell

完成之后,输入“spark”并按Enter键。与在Python控制台中看到的一样,您将看到SparkSession对象,我们将在第2章中介绍它。

3. 启动SQL控制台

本书的部分内容将涵盖大量的Spark SQL。对于那些,您可能想要启动SQL控制台。在我们讨论了这些主题之后,我们将重新讨论一些更相关的细节。

./bin/spark-sql

4. 在本书中使用的数据

在本书中,我们将使用一些数据源作为示例。如果您想在本地运行代码,可以从本书的官方代码库中下载这些代码。简而言之,您将下载数据,将其放入一个文件夹中,然后在本书中运行代码片段!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容