认识Spark

对于Spark的认识,在以下视频中说明。全部免费课程可在腾讯课堂查看:个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)


2-认识PySpark


首先通过Spark官方文档的说明进行认识Spark,官网地址为:http://spark.apache.org/

就依据主页上的说明,进行对Spark认识。

Spark官网

是什么

Apache Spark是一个用于大规模数据处理的统一分析引擎。

运行速度

Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎,实现了批处理和流数据的高性能。

在“逻辑回归”测试中,Spark的执行速度是Hadoop的100倍,所以Spark计算引擎具有高性能。


Spark执行效率

上手难度

对于Spark可以用Java、Scala、Python、R和SQL快速编写应用程序,所以受众很广泛,并且于Python、R和SQL的对初学者也很友好,适合入门学习。

Spark提供了80多个高级操作符,可以轻松构建并行应用。可以在Scala、Python、R和SQL shell中交互地使用它。

组成模块

Spark由4大功能库构成,分别是:Spark SQL、Spark Streaming、MLib、GraphX。

Spark支持一系列库,如SQL和DataFrames进行数据分析处理,用于机器学习的MLlib, GraphX和数据流Spark Streaming。可以在同一个应用程序中无缝地组合这些库。

核心模块


核心模块文档

执行平台

可以在EC2、Hadoop YARN、Mesos或Kubernetes上以独立集群模式运行Spark。可访问HDFS、Apache Cassandra、Apache HBase、Apache Hive等数百个数据源。所以Spark并不是要求一定要直接对接Hadoop。


Spark运行的平台

实验的Spark环境

我们在第1讲在Windows上构建了Spark 2环境,在第2讲构建HDP大数据平台中是Spark 1环境。

所以我们有两套的Spark环境,本来是应该就对Spark 2进行说明,但由于HDP中的Spark环境

可以连接大数据环境中的不同的服务如Hive、HDFS进行连接操作,所以对Spark 1也顺带说明,并且对比与Spark 2的差异。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 前言 Spark的知识点很多,决定分多P来慢慢讲🤣,比较关键的RDD算子其实已经写了大半,奈何内容还是太多了就不和...
    即将秃头的Java程序员阅读 245评论 0 0
  • 一、平台架构 1.1 接入层 1.1.1 设备采集(IoT)数据采集(DAQ),是指从传感器和其它待测设备等模拟和...
    玄鸟西阅读 2,954评论 0 4
  • 什么是Spark? Spark是基于内存计算大数据分析引擎,提高了在大数据环境下数据处理的实时性。Spark仅仅只...
    bigdata张凯翔阅读 818评论 0 2
  • 一、Spark简介 1.1 Spark是什么 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实...
    这一刻_776b阅读 2,988评论 0 0
  • ![Flask](data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAW...
    极客学院Wiki阅读 7,411评论 0 3