Facebook Spark 60TB Spark应用场景总结

可用性调优

之前的PipedRDD实现容错性较差，只要发生fetch错误时，整个job就会失败，该PR改进了PipedRDD从而可以更优雅地处理fetch错误，使得job可以从失败中恢复；

可配置最大fetch失败次数，对于长时间运行的服务，由于机器重启导致fetch失败的次数可能会显著增加，这里增加了一个可配置fetch失败的最大次数(4-20)从而使得任务更加鲁邦。

反应迟钝的driver，当添加一个task时driver会操作(O^2)次导致反应迟钝，导致job阻塞或者被Killed。当提交200k个tasks时，executor不能再注册由于driver被阻塞住，通过jstask观察锁在TaskSchedulerImpl.submitTasks上。

TimSort存在存在一处bug导致处理内存操作时导致curruption；

通过设置spark.shuffle.io.serverThreads和spark.shuffle.io.backLog来处理在shuffle阶段executor的timeout情况；

发现host处理4个reduce任务时会发生OOM，发现了一处ShuffleExternal溢出内存时的bug；

SparkUI

jstack

libperfagent for Java symbol生成火焰图

参考：

最后编辑于：2017.12.11 13:02:14

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。