240 发简信
IP属地:江苏
  • 【Spark Java API】broadcast、accumulator

    broadcast 官方文档描述: 函数原型: 广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有...

  • 【Spark Java API】Action(6)—saveAsTextFile、saveAsObjectFile

    saveAsTextFile 官方文档描述: 函数原型: saveAsTextFile用于将RDD以文本文件的格式存储到文件系统中。 源码分析:...

  • 【Spark Java API】Action(5)—treeAggregate、treeReduce

    treeAggregate 官方文档描述: 函数原型: **可理解为更复杂的多阶aggregate。** 源码分析: **从源码中可以看出,tr...

  • 【Spark Java API】Action(4)—sortBy、takeOrdered、takeSample

    sortBy 官方文档描述: 函数原型: **sortBy根据给定的f函数将RDD中的元素进行排序。** 源码分析: **从源码中可以看出,so...

  • 【Spark Java API】Action(3)—foreach、foreachPartition、lookup

    foreach 官方文档描述: 函数原型: **foreach用于遍历RDD,将函数f应用于每一个元素。** 源码分析: 实例: foreach...

  • 【Spark Java API】Action(2)—fold、countByKey

    fold 官方文档描述: 函数原型: **fold是aggregate的简化,将aggregate中的seqOp和combOp使用同一个函数op...

  • 【Spark Java API】Action(1)—reduce、aggregate

    reduce 官方文档描述: 函数原型: 根据映射函数f,对RDD中的元素进行二元计算(满足交换律和结合律),返回计算结果。 源码分析: 从源码...

  • 【spark】sortByKey实现二次排序

    最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果。由于之前对spark的A...

  • 【Spark Java API】Transformation(13)—zipWithIndex、zipWithUniqueId

    zipWithIndex 官方文档描述: 函数原型: 该函数将RDD中的元素和这个元素在RDD中的indices组合起来,形成键/值对的RDD。...