MapReducer之Partitioner与Sort


排序大概分为以下几类

  1. MapReducer自带排序就可以满足
  2. 自定义sort规则,只设置1个Reducer Task
  3. 自定义Partition实现区内有序
  4. 启用多个Reducer Task 并实现全局有序,MapReducer提供了TotalSortPartitioner
  • 为了满足速度快的要求,对不同的key采用不一样的查找方法,分别是
    • 如果key是BinaryComparable(可以认为是字符串类型)的话会构建trie,时间复杂度是O(n), n是树的深度.
    • 如果是非BinaryComparable类型就构建BinarySearchNode,用二分查找,时间复杂度O(log(n)),n是reduce数。
  • 为了满足负载均衡,提供了三个采样类,分别是
    • IntervalSampler:以一定间隔从分片中选择键,适合排好序的文件
    • RandomSampler:以指定的采样率均匀地从一个数据集中选择样本。
    • SplitSampler:取一片数据,把这些片数据进行处理,选出分区用的临界点,进行分区
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,222评论 19 139
  • --- layout: post title: "如果有人问你关系型数据库的原理,叫他看这篇文章(转)" date...
    蓝坠星阅读 4,294评论 0 3

友情链接更多精彩内容