背景:诞生于伯克利大学AMPLab的Spark是当今大数据领域最活跃、最热门、最高效的大数据通用平台,是Apache软件基金会所有开源项目中三大顶级开源项目之一。
1.1 Spark:一体化、多元化的告诉大数据通用计算平台和库
基于RDD,Spark成功构架起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功使用Spark SQL、Spark Streaming、MLlib、GraphX近乎完美的解决了大数据中的Batch Processing、Streaming processing、Ad-hoc Qurey等三大核心问题。更为优雅的是,在Spark中,Spark SQL、Spark streaming、MLlib、GraphX四大子框架和库之间可以无缝共享数据和操作。
Spark的官网定义:Spark是一个通用的大规模数据快速处理引擎。
1.2 Spark大数据处理框架
1.2.1 Spark速度为何如此之快
1.统一的RDD抽象和操作
Spark作为一个通用的大数据计算平台,基于“One Stack to rule them all”的理念成功成为一体化、多元化的大数据处理平台,轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等。
2.基于内存的迭代式计算
3.DAG
4.出色的容错机制