JasmineSong - 简书

JasmineSong

IP属地：天津

谈谈RDD、DataFrame、Dataset的区别和各自的优势
https://www.cnblogs.com/starwater/p/6841807.html

410 0 0
写parquet文件遇到的问题
df.write.format("parquet").mode(SaveMode.Overwrite).save(outputPath) 一、操...

1270 0 0

java程序中监控内存解决OutOfMemoryError: GC overhead limit exceeded
最近linux跑scala程序，内存占用较大时会出现gc错误。目前程序上没有可以优化的部分，可能是jvm参数设置不当，明天试试下面的方法。在程序...

1698 0 0
nohup和&结合在后台运行进程
nohup和&nohup command & 在后台运行conmmand,其中nohup运行command的话，关闭shell仍然运行，但是c...

288 0 0
Failed to get broadcast_10_piece0 of broadcast_10
spark-submit yarn-client提交任务时，出现如下错误原因：将sparkcontext定义在了object体内，而不是obj...

3670 0 0
Spark算子flatMap一对多生成数据，map一对一生成数据
Spark的map算子只能一对一生成数据，要想一对多生成，用flatMap。

1389 0 0
使用map要谨慎
scala非RDD的数据结构使用map形成的键值对，如果存在相同键的键值对，将会覆盖，最终只保留一个。所以这种情况使用map生成键值对一定要谨慎...

354 0 0

spark中如何划分stage（面试）
spark中如何划分stage 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区两个...

7340 0 2
IntelliJ IDEA在Local模式下Spark程序消除日志中INFO输出
https://blog.csdn.net/dabokele/article/details/52599768

617 0 0