Resilient Distributed Dataset ==> 弹性分布式数据集
Resilient ==> 指的是RDD的分区数量是可以进行弹性控制的
Distributed ==> 指的是RDD的分区分布式的存在于各个执行(Executor)节点上task运行是分布式的
Dataset ==> RDD中描述的是一个数据集,类似集合Array大的数据集合
RDD中的数据是不可变、而且是分区存在的
RDD的五大特性描述
- 有一系列的切片
- 都有个compute函数作用于每个分区
- 每个RDD(除了初始的)都有依赖
- 可选,对于pair类型(key/value),可以自定义分区
- 可选,每个RDD的分区都有最优执行位置(类似于hdfs的就近原则)
备注:RDD中是没有存储数据的,存储的是数据存储位置信息, 只有当执行compute方法的时候,才会从数据源读取数据并返回这个rdd中的数据记录