spark rdd编程

之前简单用了下spark ml,发现还是需要练习下基础的rdd使用，以方便模型的建立。

RDD操作

RDD被创建好以后，在后续使用过程中一般会发生两种操作：

*  转换（Transformation）：基于现有的数据集创建一个新的数据集。

*  行动（Action）：在数据集上进行运算，返回计算值。

转换操作

对于RDD而言，每一次转换操作都会产生不同的RDD，供给下一个“转换”使用。转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作。

下面列出一些常见的转换操作（Transformation API）：

* filter(func)：筛选出满足函数func的元素，并返回一个新的数据集

* map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集

* flatMap(func)：与map()相似，但每个输入元素都可以映射到0或多个输出结果

* groupByKey()：应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集

* reduceByKey(func)：应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合

行动操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一次转换操作，最终，完成行动操作得到结果。

下面列出一些常见的行动操作（Action API）：

* count() 返回数据集中的元素个数

* collect() 以数组的形式返回数据集中的所有元素

* first() 返回数据集中的第一个元素

* take(n) 以数组的形式返回数据集中的前n个元素

* reduce(func) 通过函数func（输入两个参数并返回一个值）聚合数据集中的元素

* foreach(func) 将数据集中的每个元素传递到函数func中运行*

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。