MapReducer之Partitioner与Sort

排序大概分为以下几类

为了满足速度快的要求，对不同的key采用不一样的查找方法，分别是
- 如果key是BinaryComparable(可以认为是字符串类型)的话会构建trie，时间复杂度是O(n), n是树的深度.
- 如果是非BinaryComparable类型就构建BinarySearchNode，用二分查找，时间复杂度O(log(n))，n是reduce数。
为了满足负载均衡，提供了三个采样类，分别是
- IntervalSampler：以一定间隔从分片中选择键，适合排好序的文件
- RandomSampler：以指定的采样率均匀地从一个数据集中选择样本。
- SplitSampler:取一片数据，把这些片数据进行处理，选出分区用的临界点，进行分区

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文