Spark广播变量存储读取机制

广播变量的读取比较复杂，首先读取端会尝试从本地BlockManager直接读取未切分的完整数据；如果不存在会尝试从本地BlockManager读取切分的数据块；如果都不存在，则从远端的driver或executor拉取，拉取每个数据块时，都会随机选择一个持有该数据块的executor或driver进行拉取，这样可以减少各个节点的网络IO压力。远端拉取来数据块会拷贝一份存储在本地BlockManager，以便其他executor拉取数据用。如果广播变量是读取数据块，会将数据块拼回完整数据对象，然后会将完成的数据对象拷贝一份存储在本地BlockManager，以便executor上执行的tasks快速读取广播变量。

由此可以看出广播变量会在每个节点存储两份：

- 一份是未切分的完整数据对象，用于executor或driver上执行的tasks快速读取

- 一份是切分后的数据，用于其他executor拉取对应的数据块。

spark的广播变量的写入比较简单，写入本地BlockManager两份数据即可。读取比较复杂，这里也真正的体现了p2p的BitTorrent协议的实现

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Spark广播变量存储读取机制

Spark广播变量存储读取机制

相关阅读更多精彩内容

友情链接更多精彩内容