240 发简信
IP属地:北京
  • 2018-05-30

    1 . jion 的时候把大表放后面 2. join on 使用相同连接键位 ,避免产生多个mapreduce 3. 尽早的过滤数据,避免数据倾...

  • SparkContext 初始化综述

    1. SparkContext 初始化 所需要的必要条件 > SparkEnv > DAGScheduler >...

  • spark 源码阅读RDD(一)

    1. RDD 分布式数据集合,静态模型 ,解决规划的问题 ,RDD 被运行起来后才解决实际的问题 ,对应两个操作transformationac...