240 发简信
IP属地:天津
  • 谈谈RDD、DataFrame、Dataset的区别和各自的优势

    https://www.cnblogs.com/starwater/p/6841807.html

  • 写parquet文件遇到的问题

    df.write.format("parquet").mode(SaveMode.Overwrite).save(outputPath) 一、操...

  • Resize,w 360,h 240
    java程序中监控内存解决OutOfMemoryError: GC overhead limit exceeded

    最近linux跑scala程序,内存占用较大时会出现gc错误。目前程序上没有可以优化的部分,可能是jvm参数设置不当,明天试试下面的方法。在程序...

  • nohup和&结合在后台运行进程

    nohup和&nohup command & 在后台运行conmmand,其中nohup运行command的话,关闭shell仍然运行,但是c...

  • Failed to get broadcast_10_piece0 of broadcast_10

    spark-submit yarn-client提交任务时,出现如下错误 原因:将sparkcontext定义在了object体内,而不是obj...

  • Spark算子flatMap一对多生成数据,map一对一生成数据

    Spark的map算子只能一对一生成数据,要想一对多生成,用flatMap。

  • 使用map要谨慎

    scala非RDD的数据结构使用map形成的键值对,如果存在相同键的键值对,将会覆盖,最终只保留一个。所以这种情况使用map生成键值对一定要谨慎...

  • spark中如何划分stage(面试)

    spark中如何划分stage 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,表现为 一个父RDD的分区对应于一个子RDD的分区两个...

  • IntelliJ IDEA在Local模式下Spark程序消除日志中INFO输出

    https://blog.csdn.net/dabokele/article/details/52599768

个人介绍
计算机研究生一枚