(02)MapReduce与Spark的异同和优势比较

MapReduce与Spark相比，有哪些异同点

1、基本原理上：

a) MapReduce：基于磁盘的大数据批量处理系统。

b) Spark：基于RDD（Resilient Distributed Datasets，弹性分布式数据集）数据处理，显式的将RDD数据存储到磁盘和内存中。

2、模型上：

a) MapReduce：可以处理超大规模的数据，适合日志分析挖掘等较少的迭代的长任务需求；结合了数据的分布式的计算。

b) Spark：适合数据的挖掘，机器学习等多轮迭代式计算任务。

3、容错性上：

a) 数据容错性

b) 节点容错性

Spark Lineage，在数据发生丢失时，可以从Lineage上重构数据结构。

RDD:基于内存集群计算的容错抽象
该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A ...
九七学姐阅读 1,871评论 0赞 3
冰解的破-spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AM...
大佛爱读书阅读 2,866评论 0赞 20
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
Joyyx阅读 1,894评论 0赞 5
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
草里有只羊阅读 1,374评论 2赞 7
安可生？
七月与安生时间交错生命轮回你不是你她不是她也许我们过着自己脑子里应该活的生活，可什么是应该什么是不应该？...
郝田甜阅读 431评论 0赞 0

赞1赞

赞赏

手机看全文