Spark 基本概念
基本定义如下:
RDD(resillient distributed dataset):弹性分布式数据集。
Task:具体执行任务。Task分为ShuffleMapTask和ResultTask两种。ShuffleMapTask和ResultTask分别类似于Hadoop中的Map,Reduce。
Job:用户提交的作业。一个Job可能由一到多个Task组成。
Stage:Job分成的阶段。一个Job可能被划分为一到多个Stage。
Partition:数据分区。即一个RDD的数据可以划分为多少个分区。
NarrowDependency:窄依赖。即子RDD依赖于父RDD中固定的Partition。NarrowDependency分为OneToOneDependency和RangeDependency两种。
ShuffleDependency:shuffle依赖,也称为宽依赖。即子RDD对父RDD中的所有Partition都有依赖。
DAG(Directed Acycle graph):有向无环图。用于反映各RDD之间的依赖关系。
lightbatis 数据库访问包 Lightbatis !