认识Spark

对于Spark的认识，在以下视频中说明。全部免费课程可在腾讯课堂查看：个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)

2-认识PySpark

首先通过Spark官方文档的说明进行认识Spark，官网地址为：http://spark.apache.org/

就依据主页上的说明，进行对Spark认识。

Spark官网

Apache Spark是一个用于大规模数据处理的统一分析引擎。

Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎，实现了批处理和流数据的高性能。

在“逻辑回归”测试中，Spark的执行速度是Hadoop的100倍，所以Spark计算引擎具有高性能。

Spark执行效率

对于Spark可以用Java、Scala、Python、R和SQL快速编写应用程序，所以受众很广泛，并且于Python、R和SQL的对初学者也很友好，适合入门学习。

Spark提供了80多个高级操作符，可以轻松构建并行应用。可以在Scala、Python、R和SQL shell中交互地使用它。

Spark由4大功能库构成，分别是：Spark SQL、Spark Streaming、MLib、GraphX。

Spark支持一系列库，如SQL和DataFrames进行数据分析处理，用于机器学习的MLlib, GraphX和数据流Spark Streaming。可以在同一个应用程序中无缝地组合这些库。

核心模块

核心模块文档

可以在EC2、Hadoop YARN、Mesos或Kubernetes上以独立集群模式运行Spark。可访问HDFS、Apache Cassandra、Apache HBase、Apache Hive等数百个数据源。所以Spark并不是要求一定要直接对接Hadoop。

Spark运行的平台

我们在第1讲在Windows上构建了Spark 2环境，在第2讲构建HDP大数据平台中是Spark 1环境。

所以我们有两套的Spark环境，本来是应该就对Spark 2进行说明，但由于HDP中的Spark环境

可以连接大数据环境中的不同的服务如Hive、HDFS进行连接操作，所以对Spark 1也顺带说明，并且对比与Spark 2的差异。