登录注册写文章

Spark中的共享变量---广播变量和累加器

Spark中的共享变量---广播变量和累加器

一.广播变量和累加器的作用
累加器（集群规模之间的大变量）：做Spark的全局统计使用
广播变量（集群规模间的大常量）：在每一台机器上缓存一个只读的变量，而不是每个任务一份拷贝。利用更有效率的广播算法分配广播变量可以减小通信成本。

二.广播变量和累加器使用注意事项
广播变量
1.在Driver端定义
2.在Executor端只能读取不能修改
3.广播变量的值只能在Driver端修改
累加器
1.累加器只能在Driver端定义
2.累加器的值在Executor端不能读取，但是在Executor端可以操作累加器
3.累加器的值只能在Driver端读取

如何将RDD中广播变量传播出去？
需要对RDD调用collect算子每一个task的计算结果会拉回到Driver端

最后编辑于：2018.01.01 18:51:41

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
草里有只羊阅读 3,313评论 0赞 15
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
Joyyx阅读 1,914评论 0赞 4
Spark Python API Docs(part one)
pyspark package subpackages pyspark.sql module pyspark.st...
盗梦者_56f2阅读 2,048评论 0赞 5
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 ...
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingConte...
草里有只羊阅读 4,259评论 0赞 11
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 ...
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingConte...
Joyyx阅读 5,477评论 0赞 26

赞1赞

赞赏

手机看全文