登录注册写文章

Spark依赖包加载顺序

Spark依赖包加载顺序

在流式计算中对于修改数值的操作或者在 mappartion/foreachPartition 中自定义数据持久化到非主键约束的平台时，就会出现灾难性后果。
一旦出现数据倾斜，启动备用线程执行当前任务，就会出现数据加倍等脏数据。所以在以上场景，无法保证操作幂等性的前提下，不要开启推测执行。

spark 依赖包加载顺序总结:
默认情况下，spark 优先使用 / etc/spark/conf/classpath.txt 里自带的依赖包；
若是找不到则查找用户通过 --jar 提交的依赖包 (位于 driver、executor 的 classpath 里)；
若是两个路径下都有相同名字的依赖包（版本不同），则抛出 linked exception 用户解决冲突；
使用 --spark.{driver,executor}.userClassPathFirst = true 优先启用用户提供的依赖包；
使用 --spark.{driver,executor}.extraClassPath = conflict-jar 来解决同名冲突的包依赖；

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
草里有只羊阅读 3,290评论 0赞 15
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
Joyyx阅读 1,902评论 0赞 4
Spark学习笔记
Scala语法至于scala语法而言，大致上和Java的语法类似，增加了一些函数式编程，具体语法可以参考Scal...
卡卡xx阅读 2,936评论 0赞 1
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark S...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理...
葡萄喃喃呓语阅读 3,217评论 0赞 23
社会的另一面，都在滴滴司机的口袋里
谁是最了解一个城市人们生活的人？或许不会是警察，不会是记者，也不会是任何媒体，而是滴滴车司机。 “对不住啊，妹子...
一布向左阅读 122评论 0赞 0

1赞2赞

赞赏

手机看全文