1.Spark编程模型

背景:诞生于伯克利大学AMPLab的Spark是当今大数据领域最活跃、最热门、最高效的大数据通用平台,是Apache软件基金会所有开源项目中三大顶级开源项目之一。

1.1 Spark:一体化、多元化的告诉大数据通用计算平台和库

基于RDD,Spark成功构架起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功使用Spark SQL、Spark Streaming、MLlib、GraphX近乎完美的解决了大数据中的Batch Processing、Streaming processing、Ad-hoc Qurey等三大核心问题。更为优雅的是,在Spark中,Spark SQL、Spark streaming、MLlib、GraphX四大子框架和库之间可以无缝共享数据和操作。

Spark的官网定义:Spark是一个通用的大规模数据快速处理引擎。


1.2 Spark大数据处理框架

1.2.1 Spark速度为何如此之快

1.统一的RDD抽象和操作

Spark作为一个通用的大数据计算平台,基于“One Stack to rule them all”的理念成功成为一体化、多元化的大数据处理平台,轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等。

2.基于内存的迭代式计算

3.DAG

4.出色的容错机制

1.2.2 RDD:分布式函数式编程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容