240 投稿
收录了4篇文章 · 1人关注
  • Resize,w 360,h 240
    Spark性能优化总结

    总结一下个人看了一些Spark性能调优文章之后的理解,主要框架来自于meituantech,会在此框架上加入个人关注点,目录如下, Overvi...

    0.9 chenfh5 2 29
  • 看过的好的博客

    Spark BlockManager原理与源码分析yarn的框架及原理Spark数据倾斜的完美解决SparkSQLAndDataFrames对结...

  • Resize,w 360,h 240
    大数据原理-Kafka原理

    一、简介 Apache Kafka是分布式发布-订阅消息系统,在 kafka官网上对 kafka 的定义:一个分布式发布-订阅消息传递系统。 它...

  • Resize,w 360,h 240
    sparkRDD、DataFrame和DataSet的区别

    RDD-DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spa...