对于Spark的认识,在以下视频中说明。全部免费课程可在腾讯课堂查看:个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)
首先通过Spark官方文档的说明进行认识Spark,官网地址为:http://spark.apache.org/
就依据主页上的说明,进行对Spark认识。
是什么
Apache Spark是一个用于大规模数据处理的统一分析引擎。
运行速度
Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎,实现了批处理和流数据的高性能。
在“逻辑回归”测试中,Spark的执行速度是Hadoop的100倍,所以Spark计算引擎具有高性能。
上手难度
对于Spark可以用Java、Scala、Python、R和SQL快速编写应用程序,所以受众很广泛,并且于Python、R和SQL的对初学者也很友好,适合入门学习。
Spark提供了80多个高级操作符,可以轻松构建并行应用。可以在Scala、Python、R和SQL shell中交互地使用它。
组成模块
Spark由4大功能库构成,分别是:Spark SQL、Spark Streaming、MLib、GraphX。
Spark支持一系列库,如SQL和DataFrames进行数据分析处理,用于机器学习的MLlib, GraphX和数据流Spark Streaming。可以在同一个应用程序中无缝地组合这些库。
执行平台
可以在EC2、Hadoop YARN、Mesos或Kubernetes上以独立集群模式运行Spark。可访问HDFS、Apache Cassandra、Apache HBase、Apache Hive等数百个数据源。所以Spark并不是要求一定要直接对接Hadoop。
实验的Spark环境
我们在第1讲在Windows上构建了Spark 2环境,在第2讲构建HDP大数据平台中是Spark 1环境。
所以我们有两套的Spark环境,本来是应该就对Spark 2进行说明,但由于HDP中的Spark环境
可以连接大数据环境中的不同的服务如Hive、HDFS进行连接操作,所以对Spark 1也顺带说明,并且对比与Spark 2的差异。