啥是Spark？

第一次接触Spark

最近在学习大数据框架，现在终于学到了Spark。
到底什么是Spark？

"is a unified analytics engine for large-scale data processing"

官方解释：大规模数据处理引擎。
当然不仅于此。因为Spark是在Hadoop之后出现的大数据引擎，当然也是实现了MapReduce的机制，并且可以很方便的从HDFS或者其他数据源中读取数据。
因为是处理大数据的引擎，当然也是支持分布式扩展，并且解决了Hadoop在小文件上的短板，很好的利用了已经很发达的计算机内存，实现了更高效的数据处理方式。

Run workloads 100x faster than Hadoop MapReduce in memory

官网证据！

传说Spark强大到可以比Hadoop快100被……这是官网说的。
已经有点迫不及待要学习了呢。

先看看Spark的运行架构。

Spark运行架构

基本上学过Hadoop的童鞋都知道，通常一个简单的MR（MapReduce）的应用就是会包含三部分：

Mapper
Reducer
App

Hadoop里面的App会封装Mapper class，Reducer class 等等（当然熟悉的小伙伴知道还可能有Runner class，Partitioner class我就不一一列举了）

Spark Context

此处的Spark Context就是起到了App的作用。
但是，还是要说但是……Spark是Scala写的，Scala是Java写的，有点乱……不过重要的是：

Scala是一个用Java来实现的函数式编程语言。所以Spark很好的继承了函数式编程的思想。
（不熟悉函数式编程的小伙伴最好是能熟悉一下下，会比较好）

Cluster Manager

任务管理器，可以将不同的任务分配给Executor.

Executor

最终的任务执行者。

Spark 为啥这么快？？

Spark之所以这么快，是因为实现了DAG（有向无环图）作为其WorkFlow。
所以Spark保持work flow简洁的方式，就是用了DAG的概念。

nothing will happen until you hit a command that says I want to collect the results and do something with them.
（我们的教授说的）

一旦Spark看到有类似我们教授说的action发生，那么spark就会找出最优的方式去整合之前的代码，然后生成一个最优plan去解决这些代码中所有的运算。
熟悉Hadoop的小伙伴就知道了，这点和Hadoop非常不同，没错Spark就是不一样的烟火！

支持语言

Spark作为Apache基金会的顶级项目，当然不会是一个只支持Scala的框架。
Spark提供了三种主流语言的框架：

Python
Java
Scala
感兴趣的小伙伴点这里看文档

RDD - Resilient Distributed Dataset

中文：弹性分布式数据集
这个看起来就好抽象啊。
不过先记住就好了……我自己的理解就是一个abstraction of giant set of data。然后你在这个data set里面做一些处理。
Spark只对你的逻辑感兴趣，并且会优化然后给出你想要的结果。

嗯……听起来很酷啦……

听说Spark也有很多组件？

Hadoop的组件以多著称了……最后管不过来了弄了一个zookeeper世界才安静了下来。
Spark的组件？听到了就有点瑟瑟发抖啊……
不过好消息是，Spark的组件并不多，嘿嘿嘿，来看图

Spark Components.png

基本上就他们几个。可能随着发展，有更多的components出来，但是，请不要告诉我！！

Spark Streaming

就我的理解来说，是一个持续性的数据处理框架。比如一个网站的持续生成的日志，数据小但是需要的时效性比较强。用Stream就可以处理这样的需求。
我知道有些小伙伴想到了机器学习的continuous learning。嗯没错，是他是他，就是他，我的好朋友……

Spark SQL

嗯……我又要说Hadoop了……
对就是Hive，也是一个让你可以用SQL语法的，可以操作数据的API嘿嘿嘿。
（好了我尽量不说Hadoop）

ML Lib

嘿嘿嘿。
没错，就是Machine Learning的库。我就知道优秀的小伙伴跟我想的一定一样。
不过现在的还不是很强大，但是整合了Spark的优势，可以做线性回归等一些机器学习算法，并且内置了routine。虽然算不上开箱即用，但是也不多了。Thing alwasy getting better.

GraphX

类似于matplotlib？？抱歉这个我没了解过……

总结一下

Spark比Hadoop快
Spark利用了计算机内存的发展
Spark是用Scala写的，函数式编程
Spark有Python，Java，Scala 三种语言的API
What a awesome spark！