1.Spark编程模型

背景：诞生于伯克利大学AMPLab的Spark是当今大数据领域最活跃、最热门、最高效的大数据通用平台，是Apache软件基金会所有开源项目中三大顶级开源项目之一。

1.1 Spark：一体化、多元化的告诉大数据通用计算平台和库

基于RDD，Spark成功构架起了一体化、多元化的大数据处理体系，在“One Stack to rule them all”思想的引领下，Spark成功使用Spark SQL、Spark Streaming、MLlib、GraphX近乎完美的解决了大数据中的Batch Processing、Streaming processing、Ad-hoc Qurey等三大核心问题。更为优雅的是，在Spark中，Spark SQL、Spark streaming、MLlib、GraphX四大子框架和库之间可以无缝共享数据和操作。

Spark的官网定义：Spark是一个通用的大规模数据快速处理引擎。

1.2 Spark大数据处理框架

1.2.1 Spark速度为何如此之快

1.统一的RDD抽象和操作

Spark作为一个通用的大数据计算平台，基于“One Stack to rule them all”的理念成功成为一体化、多元化的大数据处理平台，轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等。

2.基于内存的迭代式计算

3.DAG

4.出色的容错机制

1.2.2 RDD：分布式函数式编程

最后编辑于：2017.12.04 20:07:20

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

1.Spark编程模型

1.Spark编程模型

1.1 Spark：一体化、多元化的告诉大数据通用计算平台和库

Spark的官网定义：Spark是一个通用的大规模数据快速处理引擎。

1.2 Spark大数据处理框架

1.2.1 Spark速度为何如此之快

1.2.2 RDD：分布式函数式编程

相关阅读更多精彩内容

友情链接更多精彩内容