通过对spark core的核心概念学习,可以更好的了解spark的运行机制和生命周期 基本概念: Application: spark应用程序,一个应用程序由一个driv...
操作场景 SQL语句转化为具体执行计划是由SQL查询编译器决定的,同一个SQL语句可以转化成多种物理执行计划,如何指导编译器选择效率最高的执行计划,这就是优化器的主要作用。传...
使用 mapPartitions,按每个分区计算结果 如果每条记录的开销太大,例: rdd.map{x=>conn=getDBConn;conn.write(x.toStri...
操作场景 Spark onYARN模式下,有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中,Driver和Exe...
操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),若分配给它多个Executor,可...
操作场景 Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据,给其他Executor提供shuffl...
操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使...
操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到最优。 查看CPU使...
操作场景 Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小...
操作场景 spark支持两种方式的序列化: ● Java 原生序列化 JavaSerializer ● Kryo 序列化 KryoSerializer 序列化对于 Spa...