Spark广播变量存储读取机制

广播变量的读取比较复杂,首先读取端会尝试从本地BlockManager直接读取未切分的完整数据;如果不存在会尝试从本地BlockManager读取切分的数据块;如果都不存在,则从远端的driver或executor拉取,拉取每个数据块时,都会随机选择一个持有该数据块的executor或driver进行拉取,这样可以减少各个节点的网络IO压力。远端拉取来数据块会拷贝一份存储在本地BlockManager,以便其他executor拉取数据用。如果广播变量是读取数据块,会将数据块拼回完整数据对象,然后会将完成的数据对象拷贝一份存储在本地BlockManager,以便executor上执行的tasks快速读取广播变量。

由此可以看出广播变量会在每个节点存储两份:

- 一份是未切分的完整数据对象,用于executor或driver上执行的tasks快速读取

- 一份是切分后的数据,用于其他executor拉取对应的数据块。

spark的广播变量的写入比较简单,写入本地BlockManager两份数据即可。读取比较复杂,这里也真正的体现了p2p的BitTorrent协议的实现

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容