- Spark 允许用户程序将数据加载到集群内存中用于反复查询, 非常适用于大数据和机器学习
- 相比Hadoop MapReduce: Spark 速度更快;其次, Spark 丰富的 API 带来了更强大的易用性;最后,Spark 不单单支持传统批处理应用, 更支持交互式查询、流式计算、机器学习、图计算等各种应用,满足各种不同应用场景下的需求
- Spark 的一个主要特点就是能够在内存中进行计算
-
Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、 分发以及监控的计算引擎.
- Spark的弹性数据分布集:RDD 表示分布在多个计算节点上可以并行操作的元素集合,是Spark 主要的编程抽象。
- Spark SQL 是 Spark 用来操作结构化数据的程序包。
- Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件。
- Spark 中还包含一个提供常见的机器学习(ML)功能的程序库。
- GraphX 是用来操作图(比如社交网络的朋友关系图)的程序库。
- Spark 支持在各种集群管理器(cluster manager) 上运行 , 包括 Hadoop YARN、 Apache Mesos,以及 Spark 自带的一个简易调度
器,叫作独立调度器。 - Spark 不仅可以将任何 Hadoop 分布式文件系统(HDFS)上的文件读取为分布式数据集,也可以支持其他支持 Hadoop 接口的系统,比如本地文件、亚马逊 S3、 Cassandra、 Hive、HBase 等。即Hadoop并非Spark的存在必须依赖。
Spark导论
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingConte...
- Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: R...
- Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: R...
- Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingConte...
- Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...