spark中的partition和block的关系？

怎样理解spark中的partition和block的关系？ - Spark - 知乎
https://www.zhihu.com/question/37310539

hdfs中的block是分布式存储的最小单元，类似于盛放文件的盒子，一个文件可能要占多个盒子，但一个盒子里的内容只可能来自同一份文件。假设block设置为128M，你的文件是250M，那么这份文件占3个block（128+128+2）。这样的设计虽然会有一部分磁盘空间的浪费，但是整齐的block大小，便于快速找到、读取对应的内容。（p.s. 考虑到hdfs冗余设计，默认三份拷贝，实际上3*3=9个block的物理空间。）
spark中的partion是弹性分布式数据集RDD的最小单元，RDD是由分布在各个节点上的partion组成的。partion是指的spark在计算过程中，生成的数据在计算空间内最小单元，同一份数据（RDD）的partion大小不一，数量不定，是根据application里的算子和最初读入的数据分块数量决定的，这也是为什么叫“弹性分布式”数据集的原因之一。

总结：
block位于存储空间、partion位于计算空间，
block的大小是固定的、partion大小是不固定的，
block是有冗余的、不会轻易丢失，partion（RDD）没有冗余设计、丢失之后重新计算得到

//
排名第一的答案讲得很清楚了，block位于存储空间，partition位于计算空间。这么说吧，Spark虽说经常部署在Hadoop平台上，使用hdfs作为存储，但是也部署在其他的平台的。

最后编辑于：2017.12.05 01:47:26

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

spark中的partition和block的关系？

spark中的partition和block的关系？

相关阅读更多精彩内容

友情链接更多精彩内容