spark优点和模式

spark是一个可以替代mapreduce的新的分布式并行计算框架,其底层源码由SCALA写成,支持python、scala、java等大多数机器语言。

spark的优点:

1.mapreduce执行过程中,运行结束的task进程会释放掉进程占用的资源。spark只有当任务执行完了才会一次性把所有资源释放掉

2.MapReduce中执行Job,Job里面包涵一个或者多个的task,task分为MapTask和ReduceTask;spark的结构是application中包涵多个job(并行或者串行),job下有多个stage(stage以shuffle划分),stage下有众多task,多个task组成Task Set。

3.MapReduce的在运行中数据主要依靠磁盘,spark的运行数据会cache到内存中,读写速度更快,还可以通过persist优化,数据到内存和磁盘等五种方式

4.MapReduce的逻辑更加复杂,要考虑执行逻辑、资源分配、代码逻辑等,而spark只需要考虑代码逻辑,大部分工作由spark自行完成,当然在spark优化中,execute core、execute memory等可以做优化


MapReduce


spark

二、spark的模式

1.本地模式

2.spark  standalone模式:集群模式,由spark完全实现容错性和资源管理

3.spark on  yarn模式:集群模式,运行在yarn这个通用资源管理系统上的,和其他框架共享资源,其中yarn-cluster模式和yarn-client模式,client模式主要用来做交互和调试,cluster模式主要用于生产环境。两者的区别在于AM(application master)进程,cluster模式下,drive在AM中,向yarn的RM申请资源,并监督任务的运行情况,在完成申请之后,关闭client端;client模式下,AM仅向yarn请求executor,client会和请求的container通信来调度任务,并直至任务完成,client不能离开。在实际情况下,client模式能耐提交的任务在cluster模式下可能跑不通。


yarn-cluster模式


yarn-client模式


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • YarnYarn产生背景:Yarn直接来自于MR1.0MR1.0 问题:采用的是master slave结构,ma...
    时待吾阅读 11,175评论 2 23
  • Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AM...
    大佛爱读书阅读 7,816评论 0 20
  • spark-submit的时候如何引入外部jar包 在通过spark-submit提交任务时,可以通过添加配置参数...
    博弈史密斯阅读 7,848评论 1 14
  • Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校...
    达微阅读 3,741评论 0 0
  • 大雨敲醒了我 把一场巨梦冲洗进下水道 她还在睡着 猫也在睡着 我去阳台点烟,看雨 和往来的车 离京数月 别了故乡半...
    灵泉镇小青年阅读 4,218评论 0 5